ES3010144T3

ES3010144T3 - Reference picture management in video coding

Info

Publication number: ES3010144T3
Application number: ES19850237T
Authority: ES
Inventors: Fnu Hendry; Ye-Kui Wang
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2018-08-17
Filing date: 2019-08-16
Publication date: 2025-04-01
Anticipated expiration: 2039-08-16
Also published as: US20240214555A1; CN114584775B; PH12021550312A1; KR102844156B1; BR112021002491A2; KR20230165889A; CA3109799A1; JP2021534676A; US11477438B2; JP2023085317A; UA128290C2; JP7223118B2; MX2024010756A; KR102610094B1; US20210258568A1; EP3831064A4; EP3831070B1; JP2021534670A; KR20210041062A; KR20230169440A

Abstract

Un método para decodificar un flujo de bits de vídeo codificado incluye obtener una estructura de lista de imágenes de referencia para un segmento actual representado en el flujo de bits de vídeo codificado, en donde la estructura de lista de imágenes de referencia contiene un número de entradas; obtener un número predeterminado de entradas activas en una lista de imágenes de referencia para el segmento actual; construir una lista de imágenes de referencia para el segmento actual, conteniendo la lista de imágenes de referencia un número de entradas activas e inactivas; establecer el número de entradas activas en la lista de imágenes de referencia igual al número de entradas en la estructura de lista de imágenes de referencia cuando el número predeterminado de entradas activas en la lista de imágenes de referencia es mayor que el número de entradas en la estructura de lista de imágenes de referencia; y obtener, con base en al menos una entrada activa de la lista de imágenes de referencia, al menos un bloque reconstruido del segmento actual. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN

Gestión de imágenes de referencia en codificación de vídeo

Campo técnico

La presente descripción está generalmente relacionada con técnicas para la gestión de imágenes de referencia en codificación de vídeo. Más específicamente, esta descripción describe técnicas para la construcción de listas de imágenes de referencia.

Antecedentes

La cantidad de datos de vídeo necesarios para representar incluso un vídeo relativamente corto puede ser sustancial, lo que puede dar lugar a dificultades cuando los datos se van a transmitir en línea o comunicar de otro modo a través de una red de comunicaciones con capacidad de ancho de banda limitada. Por lo tanto, los datos de vídeo generalmente se comprimen antes de comunicarse a través de las redes de telecomunicaciones modernas. El tamaño de un vídeo también podría ser un problema cuando el vídeo se almacena en un dispositivo de almacenamiento debido a que los recursos de memoria son limitados. Los dispositivos de compresión de vídeo a menudo usan software y/o hardware en el origen para codificar los datos de vídeo antes de la transmisión o el almacenamiento, lo que reduce la cantidad de datos necesarios para representar imágenes de vídeo digital. Luego, los datos comprimidos son recibidos en el destino por un dispositivo de descompresión de vídeo que decodifica los datos de vídeo. Con recursos de red limitados y demandas cada vez mayores de mayor calidad de vídeo, son deseables técnicas mejoradas de compresión y descompresión que mejoren la relación de compresión con poco o ningún sacrificio en la calidad de imagen.

El documento de Y-K WANG (HUAWEI) ET AL n.° JVET-M0128 2 de enero de 2019 (02-01-2019), XP030200191, describe un mayor desarrollo del proyecto de VVC en JVET.

El documento de HANNUKSELA NOKIA) M ET AL, "AHG21: On reference picture list construction and reference picture marking", n.° JCTVC-G643, (20111124), 7. REUNIÓN JCT-VC; 21112011 - 30112011; GINEBRA; (EQUIPO CONJUNTO DE COLABORACIÓN EN CODIFICACIÓN DE VÍDEO DE ISO/IEC JTC1/SC29/WG11 E ITU-T SG.16 ), URL: http://phenix.intevry.fr/jct/doc_end_user/documents/7_Geneva/wg11JCTVC-G643-v3.zip JCTVC-F803_d5_RPS_r2_with_JCTVC-G641r2_reduced.doc, (24-11-2011), XP030230935 , describe un método de análisis de un conjunto de parámetros representados en el flujo de bits de vídeo codificado.

Compendio

La invención se describe en el conjunto de reivindicaciones adjuntas. El objeto de la presente invención es que un primer aspecto se refiere a un método para decodificar un flujo de bits de vídeo codificado.

Este objetivo se resuelve mediante las reivindicaciones independientes adjuntas y en las reivindicaciones dependientes adjuntas se enumeran otras realizaciones y mejoras de la invención. En adelante, hasta la "breve descripción de los dibujos", expresiones como "... aspecto según la invención", "según la invención" o "la presente invención", se refieren a la enseñanza técnica de la realización más amplia como se reivindica con las reivindicaciones independientes. Expresiones como "implementación", "diseño", "opcionalmente", "preferiblemente", "escenario", "aspecto" o similares se refieren a otras realizaciones como se reivindica, y expresiones como "ejemplo", "... aspecto según un ejemplo", "la descripción describe" o "la descripción" describen la enseñanza técnica que se refiere a la comprensión de la invención o sus realizaciones, que, sin embargo, no se reivindica como tal. Para lograr el objetivo anterior, se adoptan las soluciones técnicas definidas en las reivindicaciones adjuntas. La invención se define en las reivindicaciones independientes. En las reivindicaciones dependientes se proporcionan características adicionales de la invención. A continuación, las partes de la descripción y los dibujos que se refieren a realizaciones que no están cubiertas por las reivindicaciones no se presentan como realizaciones de la invención, sino como ejemplos útiles para comprender la invención. La base de la invención reivindicada puede encontrarse en la realización de la FIG.

5 restringida para incluir una estructura de lista de imágenes de referencia ref_pic_list_struct(listIdx, rpsIdx). Las demás realizaciones deben entenderse como ejemplos no reivindicados útiles para comprender la invención.

El método proporciona técnicas que simplifican y hacen más eficiente la señalización de las listas de imágenes de referencia. Por lo tanto, se mejora el proceso de codificación general.

Breve descripción de los dibujos

Para una comprensión más completa de esta descripción, se hace referencia ahora a la siguiente breve descripción, tomada en relación con los dibujos adjuntos y la descripción detallada, en donde los números de referencia iguales representan partes iguales.

La FIG. 1 es un diagrama de bloques que ilustra un sistema de codificación de ejemplo que utiliza técnicas de predicción bilaterales.

La FIG. 2 es un diagrama de bloques que ilustra un codificador de vídeo de ejemplo que implementa técnicas de predicción bilaterales.

La FIG. 3 es un diagrama de bloques que ilustra un ejemplo de un decodificador de vídeo que implementa técnicas de predicción bilaterales.

La FIG. 4 es un diagrama esquemático que ilustra un conjunto de imágenes de referencia (RPS) que tiene una imagen con entradas en todos los subconjuntos del RPS.

La FIG. 5 es una realización de un método de decodificación de un flujo de bits de vídeo codificado.

La FIG. 6 es un diagrama esquemático de un dispositivo de codificación de vídeo.

La FIG. 7 es un diagrama esquemático de la realización de unos medios para la codificación.

En la siguiente descripción, las características que en el compendio anterior de la invención se han marcado como "no reivindicadas" también se entienden en adelante, cuando se describen y explican con referencia a los dibujos, como "no reivindicadas" o "no parte de la invención".

Descripción detallada

La FIG. 1 es un diagrama de bloques que ilustra un sistema 10 de codificación de ejemplo que utiliza técnicas de codificación de vídeo como se describe en la presente memoria. Como se muestra en la FIG. 1, el sistema 10 de codificación incluye un dispositivo 12 de origen que proporciona datos de vídeo codificados para ser decodificados en un momento posterior por un dispositivo 14 de destino. En particular, el dispositivo 12 de origen proporciona los datos de vídeo al dispositivo 14 de destino a través de un medio 16 legible por ordenador. El dispositivo 12 de origen y el dispositivo 14 de destino comprenden cualquiera de una amplia gama de dispositivos, que incluyen ordenadores de escritorio, ordenadores notebook (por ejemplo, ordenadores portátiles), tabletas, decodificadores, teléfonos móviles tales como los llamados teléfonos "inteligentes", las llamadas tabletas "inteligentes", televisores, cámaras, dispositivos de visualización, reproductores de medios digitales, consolas de videojuegos, dispositivos de transmisión en línea de vídeo o similares. En algunos casos, el dispositivo 12 de origen y el dispositivo 14 de destino están equipados para comunicación inalámbrica.

El dispositivo 14 de destino recibe los datos de vídeo codificados para ser decodificados a través del medio 16 legible por ordenador. El medio 16 legible por ordenador comprende cualquier tipo de medio o dispositivo capaz de mover los datos de vídeo codificados desde el dispositivo 12 de origen al dispositivo 14 de destino. En un ejemplo, el medio 16 legible por ordenador comprende un medio de comunicación para permitir que el dispositivo 12 de origen transmita datos de vídeo codificados directamente al dispositivo 14 de destino en tiempo real. Los datos de vídeo codificados se modulan según un estándar de comunicación, tal como un protocolo de comunicación inalámbrica, y se transmiten al dispositivo 14 de destino. El medio de comunicación comprende cualquier medio de comunicación inalámbrico o por cable, tal como un espectro de radiofrecuencia (RF) o una o más líneas de transmisión física. El medio de comunicación forma parte de una red basada en paquetes, tal como una red de área local, una red de área amplia o una red global tal como Internet. El medio de comunicación incluye enrutadores, conmutadores, estaciones base o cualquier otro equipo que sea útil para facilitar la comunicación desde el dispositivo 12 de origen al dispositivo 14 de destino.

En algunos ejemplos, los datos codificados se envían desde la interfaz 22 de salida a un dispositivo de almacenamiento. De manera similar, se accede a los datos codificados desde el dispositivo de almacenamiento mediante la interfaz de entrada. El dispositivo de almacenamiento incluye cualquiera de una variedad de soportes de almacenamiento de datos distribuidos o de acceso local, tal como un disco duro, discos Blu-ray, discos de vídeo digital (DVD), memorias de solo lectura de disco compacto (CD-ROM), memoria flash, memoria volátil o no volátil, o cualquier otro soporte de almacenamiento digital adecuado para almacenar datos de vídeo codificados. En otro ejemplo, el dispositivo de almacenamiento corresponde a un servidor de archivos u otro dispositivo de almacenamiento intermedio que almacena el vídeo codificado generado por el dispositivo 12 de origen. El dispositivo 14 de destino accede a datos de vídeo almacenados desde el dispositivo de almacenamiento a través de transmisión en línea o descarga. El servidor de archivos es cualquier tipo de servidor capaz de almacenar datos de vídeo codificados y transmitir esos datos de vídeo codificados al dispositivo 14 de destino. Los servidores de archivos de ejemplo incluyen un servidor web (por ejemplo, para un sitio web), un servidor de protocolo de transferencia de archivos (FTP), dispositivos de almacenamiento conectado a la red (NAS) o una unidad de disco local. El dispositivo 14 de destino accede a los datos de vídeo codificados a través de cualquier conexión de datos estándar, incluida una conexión a Internet. Esto incluye un canal inalámbrico (por ejemplo, una conexión Wi-Fi), una conexión por cable (por ejemplo, línea de abonado digital (DSL), módem por cable, etc.) o una combinación de ambas que sea adecuada para acceder a datos de vídeo codificados almacenados en un servidor de archivos. La transmisión de datos de vídeo codificados desde el dispositivo de almacenamiento es una transmisión en línea, una transmisión de descarga o una combinación de las mismas.

Las técnicas de esta descripción no se limitan necesariamente a aplicaciones o configuraciones inalámbricas. Las técnicas se aplicarán a la codificación de vídeo en apoyo de cualquiera de una variedad de aplicaciones multimedia, tales como emisiones de televisión por aire, transmisiones de televisión por cable, transmisiones de televisión por satélite, transmisiones de vídeo en línea por Internet, tales como transmisión en línea adaptativa dinámica sobre HTTP (DASH), vídeo digital que se codifica en un soporte de almacenamiento de datos, decodificación de vídeo digital almacenado en un soporte de almacenamiento de datos u otras aplicaciones. En algunos ejemplos, el sistema 10 de codificación se configurará para soportar transmisión de vídeo unidireccional o bidireccional para soportar aplicaciones tales como transmisión en línea de vídeo, reproducción de vídeo, emisión de vídeo y/o videotelefonía.

En el ejemplo de la FIG. 1, el dispositivo 12 de origen incluye el origen 18 de vídeo, el codificador 20 de vídeo y la interfaz 22 de salida. El dispositivo 14 de destino incluye la interfaz 28 de entrada, el decodificador 30 de vídeo y el dispositivo 32 de visualización. Según esta descripción, el codificador 20 de vídeo del dispositivo 12 de origen y/o el decodificador 30 de vídeo del dispositivo 14 de destino se configurarán para aplicar las técnicas para la codificación de vídeo. En otros ejemplos, un dispositivo de origen y un dispositivo de destino incluyen otros componentes o disposiciones. El dispositivo 12 de origen recibe datos de vídeo de un origen de vídeo externo, tal como una cámara externa. Asimismo, el dispositivo 14 de destino interactúa con un dispositivo de visualización externo, en lugar de incluir un dispositivo de visualización integrado.

El sistema 10 de codificación ilustrado de la FIG. 1 es simplemente un ejemplo. Las técnicas para la codificación de vídeo se realizarán por cualquier dispositivo de codificación y/o decodificación de vídeo digital. Aunque las técnicas de esta descripción generalmente se realizan por un dispositivo de codificación de vídeo, las técnicas también se realizarán por un codificador/decodificador de vídeo, normalmente denominado "CODEC". Además, las técnicas de esta descripción también se realizarán por un preprocesador de vídeo. El codificador y/o el decodificador de vídeo serán una unidad de procesamiento de gráficos (GPU) o un dispositivo similar.

El dispositivo 12 de origen y el dispositivo 14 de destino son simplemente ejemplos de tales dispositivos de codificación en los que el dispositivo 12 de origen genera datos de vídeo codificados para transmitirlos al dispositivo 14 de destino. En algunos ejemplos, el dispositivo 12 de origen y el dispositivo 14 de destino operan en una manera sustancialmente simétrica, de manera que cada uno de los dispositivos 12, 14 de origen y de destino incluye componentes de codificación y decodificación de vídeo. Por lo tanto, el sistema 10 de codificación puede soportar la transmisión de vídeo unidireccional o bidireccional entre dispositivos 12, 14 de vídeo, por ejemplo, para transmisión en línea de vídeo, reproducción de vídeo, emisión de vídeo o videotelefonía.

El origen 18 de vídeo del dispositivo 12 de origen puede incluir un dispositivo de captura de vídeo, tal como una cámara de vídeo, un archivo de vídeo que contiene vídeo capturado anteriormente y/o una interfaz de alimentación de vídeo para recibir vídeo de un proveedor de contenido de vídeo. Como una alternativa adicional, el origen 18 de vídeo genera datos basados en gráficos de ordenador como el origen de vídeo, o una combinación de vídeo en vivo, vídeo archivado y vídeo generado por ordenador.

En algunos casos, cuando el origen 18 de vídeo es una cámara de vídeo, el dispositivo 12 de origen y el dispositivo 14 de destino forman los llamados teléfonos con cámara o videoteléfonos. Sin embargo, como se mencionó anteriormente, las técnicas descritas en esta descripción se aplicarán a la codificación de vídeo en general, y se aplican a aplicaciones inalámbricas y/o por cable. En cada caso, el vídeo capturado, precapturado o generado por ordenador se codificará por el codificador 20 de vídeo. La información de vídeo codificada puede luego ser enviada por la interfaz 22 de salida a un medio 16 legible por ordenador.

El medio 16 legible por ordenador puede incluir medios transitorios, tales como una transmisión de red por cable o emisión inalámbrica, o soportes de almacenamiento (es decir, soportes de almacenamiento no transitorios), tales como un disco duro, unidad flash, disco compacto, disco de vídeo digital, disco Blu-ray u otro medio legible por ordenador. En algunos ejemplos, un servidor de red (no mostrado) recibe datos de vídeo codificados desde el dispositivo 12 de origen y proporciona los datos de vídeo codificados al dispositivo 14 de destino, por ejemplo, a través de una transmisión de red. De manera similar, un dispositivo informático de una instalación de producción de medios, tal como una instalación de estampado de discos, recibe datos de vídeo codificados desde el dispositivo 12 de origen y produce un disco que contiene los datos de vídeo codificados. Por lo tanto, puede entenderse que el medio 16 legible por ordenador incluye uno o más medios legibles por ordenador de varias formas, en varios ejemplos.

La interfaz 28 de entrada del dispositivo 14 de destino recibe información del medio 16 legible por ordenador. La información del medio 16 legible por ordenador incluye información de sintaxis definida por el codificador 20 de vídeo, que también es usada por el decodificador 30 de vídeo, que incluye elementos de sintaxis que describen características y/o procesamiento de bloques y otras unidades codificadas, por ejemplo, grupo de imágenes (GOP). El dispositivo 32 de visualización visualiza los datos de vídeo decodificados a un usuario y comprende cualquiera de una variedad de dispositivos de visualización tales como un tubo de rayos catódicos (CRT), una pantalla de cristal líquido (LCD), una pantalla de plasma, una pantalla de diodos emisores de luz orgánicos (OLED) u otro tipo de dispositivo de visualización.

El codificador 20 de vídeo y el decodificador 30 de vídeo funcionan según el estándar de codificación de vídeo de alta eficiencia (HEVC) actualmente en desarrollo, y cumplen el modelo de prueba HEVC (HM). Otros estándares patentados o de la industria incluyen la norma H.264 del Sector de Estandarización de las Telecomunicaciones de la Unión Internacional de Telecomunicaciones (ITU-T), denominada alternativamente Parte 10 del Grupo de Experto de Imágenes en Movimiento (MPEG)-4, Codificación de Vídeo Avanzada (AVC), H.265/HEVC, o extensiones de dichos estándares. Otros ejemplos de estándares de codificación de vídeo incluyen MPEG-2 y H.263 de ITU-T. Aunque no se muestra en la FIG. 1, en algunos aspectos, el codificador 20 de vídeo y el decodificador 30 de vídeo están integrados cada uno con un codificador y decodificador de audio, e incluyen unidades de multiplexor-demultiplexor (MUX-DEMUX) apropiadas, u otro hardware y software, para gestionar la codificación tanto audio como vídeo en un flujo de datos común o flujos de datos separados. Si procede, las unidades MUX-DEMUX cumplen el protocolo multiplexor H.223 de ITU u otros protocolos, tales como el protocolo de datagramas de usuario (UDP).

El codificador 20 de vídeo y el decodificador 30 de vídeo se implementan cada uno como cualquiera de una variedad de circuitos codificadores adecuados, tales como uno o más microprocesadores, procesadores de señales digitales (DSP), circuitos integrados de aplicación específica (ASIC), matrices de puertas programables en campo (FPGA), lógica discreta, software, hardware, firmware o cualquier combinación de los mismos. Cuando las técnicas se implementan parcialmente en software, un dispositivo almacena instrucciones para el software en un medio adecuado legible por ordenador no transitorio y ejecuta las instrucciones en hardware usando uno o más procesadores para realizar las técnicas de esta descripción. Cada uno del codificador 20 de vídeo y decodificador 30 de vídeo se incluirán en uno o más codificadores o decodificadores, cualquiera de los cuales se integra como parte de un codificador/decodificador (CODEC) combinado en un dispositivo respectivo. Un dispositivo que incluye un codificador 20 de vídeo y/o un decodificador 30 de vídeo comprende un circuito integrado, un microprocesador y/o un dispositivo de comunicación inalámbrica, tal como un teléfono celular.

La FIG.2 es un diagrama de bloques que ilustra un ejemplo de codificador 20 de vídeo que implementa técnicas de codificación de vídeo. El codificador 20 de vídeo realiza intracodificación e intercodificación de bloques de vídeo dentro de segmentos de vídeo. La intracodificación se basa en la predicción espacial para reducir o eliminar la redundancia espacial en el vídeo dentro de un fotograma o imagen de vídeo dado. La intercodificación se basa en la predicción temporal para reducir o eliminar la redundancia temporal en el vídeo dentro de fotogramas o imágenes adyacentes de una secuencia de vídeo. El intramodo (modo I) puede referirse a cualquiera de varios modos de codificación basados en el espacio. Los intermodos, tal como la predicción unidireccional (también denominada unipredicción) (modo P) o la bipredicción (también denominada bipredicción) (modo B), se refieren a cualquiera de varios modos de codificación basados en el tiempo.

Como se muestra en la FIG. 2, el codificador 20 de vídeo recibe un bloque de vídeo actual dentro de un fotograma de vídeo a codificar. En el ejemplo de la FIG. 2, el codificador 20 de vídeo incluye la unidad 40 de selección de modo, la memoria 64 de fotogramas de referencia, el sumador 50, la unidad 52 de procesamiento de transformación, la unidad 54 de cuantificación y la unidad 56 de codificación de entropía. La unidad 40 de selección de modo, a su vez, incluye la unidad 44 de compensación de movimiento, la unidad 42 de estimación de movimiento, la unidad 46 de intrapredicción (también denominada intrapredicción) y la unidad 48 de partición. Para la reconstrucción de bloques de vídeo, el codificador 20 de vídeo también incluye la unidad 58 de cuantificación inversa, la unidad 60 de transformación inversa y el sumador 62. También se incluirán un filtro de desbloqueo (no mostrado en la FIG. 2) para filtrar los límites del bloque para eliminar los artefactos de bloqueo del vídeo reconstruido. Si lo desea, el filtro de desbloqueo normalmente filtraría la salida del sumador 62. También se usarán filtros adicionales (en bucle o postbucle) además del filtro de desbloqueo. Tales filtros no se muestran por brevedad, pero si lo desea, filtre la salida del sumador 50 (como un filtro en bucle).

Durante el proceso de codificación, el codificador 20 de vídeo recibe un fotograma o segmento de vídeo a codificar. El fotograma o segmento se divide en múltiples bloques de vídeo. La unidad 42 de estimación de movimiento y la unidad 44 de compensación de movimiento realizan una codificación interpredictiva del bloque de vídeo recibido en relación con uno o más bloques en uno o más fotogramas de referencia para proporcionar una predicción temporal. La unidad 46 de intrapredicción realiza alternativamente una codificación intrapredictiva del bloque de vídeo recibido en relación con uno o más bloques vecinos en el mismo fotograma o segmento que el bloque a codificar para proporcionar predicción espacial. El codificador 20 de vídeo puede realizar múltiples pasadas de codificación, por ejemplo, para seleccionar un modo de codificación apropiado para cada bloque de datos de vídeo.

Además, la unidad 48 de partición particiona bloques de datos de vídeo en subbloques, basándose en la evaluación de esquemas de partición previos en pases de codificación anteriores. La unidad 48 de partición particiona inicialmente un fotograma o segmento en unidades de codificación más grandes (LCU), y particiona cada una de las LCU en subunidades de codificación (subCU) basándose en el análisis de distorsión de tasa (por ejemplo, optimización de distorsión de tasa). La unidad 40 de selección de modo produce además una estructura de datos de árbol cuádruple indicativa de la partición de una LCU en subCU. Las CU de nodo hoja del árbol cuádruple incluyen una o más unidades de predicción (PU) y una o más unidades de transformación (TU).

La presente descripción usa el término "bloque" para referirse a cualquiera de una CU, PU o TU, en el contexto de HEVC, o estructuras de datos similares en el contexto de otros estándares (por ejemplo, macrobloques y subbloques del mismo en H.264/AVC). Una CU incluye un nodo de codificación, PU y Tu asociadas con el nodo de codificación. Un tamaño de la CU corresponde a un tamaño del nodo de codificación y tiene forma cuadrada. El tamaño de la CU puede variar desde 8*8 píxeles hasta el tamaño del bloque de árbol con un máximo de 64*64 píxeles o más. Cada CU contiene una o más PU y una o más TU. Los datos de sintaxis asociados con una CU describen, por ejemplo, la partición de la CU en una o más PU. Los modos de partición pueden diferir entre si la CU está codificada en modo directo o de salto, codificada en modo intrapredicción o codificada en modo interpredicción (también denominada interpredicción). Las PU se particionarán para que no tengan forma cuadrada. Los datos de sintaxis asociados con una CU también describen, la partición de la CU en una o más TU según un árbol cuádruple. Una TU puede tener forma cuadrada o no cuadrada (por ejemplo, rectangular).

La unidad 40 de selección de modo selecciona uno de los modos de codificación, intra o inter, por ejemplo, basándose en los resultados de error, y proporciona el bloque intra o intercodificado resultante al sumador 50 para generar datos de bloque residual y al sumador 62 para reconstruir el bloque codificado para su uso como un fotograma de referencia. La unidad 40 de selección de modo también proporciona elementos de sintaxis, tales como vectores de movimiento, indicadores intramodo, información de partición y otra información de sintaxis similar, a la unidad 56 de codificación de entropía.

La unidad 42 de estimación de movimiento y la unidad 44 de compensación de movimiento están altamente integradas, pero se ilustran por separado con fines conceptuales. La estimación de movimiento, realizada por la unidad 42 de estimación de movimiento, es el proceso de generar vectores de movimiento, que estiman el movimiento para bloques de vídeo. Un vector de movimiento, indica el desplazamiento de una PU de un bloque de vídeo dentro de un fotograma o imagen de vídeo actual en relación con un bloque predictivo dentro de un fotograma de referencia (u otra unidad codificada) en relación con el bloque actual que está codificando dentro del fotograma actual (u otra unidad codificada). Un bloque predictivo es un bloque que se encuentra en estrecha coincidencia con el bloque a codificar, en términos de diferencia de píxeles, que se determina mediante la suma de la diferencia absoluta (SAD), la suma de la diferencia cuadrática (SSD) u otras métricas de diferencia. En algunos ejemplos, el codificador 20 de vídeo calcula valores para posiciones de píxeles subenteros de imágenes de referencia almacenadas en la memoria 64 de fotogramas de referencia. El codificador 20 de vídeo interpola valores de posiciones de un cuarto de píxel, posiciones de un octavo de píxel u otras posiciones de fracciones de píxel de la imagen de referencia. Por lo tanto, la unidad 42 de estimación de movimiento realiza una búsqueda de movimiento en relación con las posiciones de píxeles completos y posiciones de fracciones de píxel y genera un vector de movimiento con precisión de fracciones de píxel.

La unidad 42 de estimación de movimiento calcula un vector de movimiento para una PU de un bloque de vídeo en un segmento intercodificado comparando la posición de la PU con la posición de un bloque predictivo de una imagen de referencia. La imagen de referencia se selecciona de una primera lista de imágenes de referencia (Lista 0) o una segunda lista de imágenes de referencia (Lista 1), cada una de las cuales identifica una o más imágenes de referencia almacenadas en la memoria 64 de fotogramas de referencia. La unidad 42 de estimación de movimiento envía el vector de movimiento calculado a la unidad 56 de codificación de entropía y a la unidad 44 de compensación de movimiento.

La compensación de movimiento, realizada por la unidad 44 de compensación de movimiento, implica buscar o generar el bloque predictivo basándose en el vector de movimiento determinado por la unidad 42 de estimación de movimiento. Nuevamente, la unidad 42 de estimación de movimiento y la unidad 44 de compensación de movimiento se integran funcionalmente, en algunos ejemplos. Al recibir el vector de movimiento para la PU del bloque de vídeo actual, la unidad 44 de compensación de movimiento ubica el bloque predictivo al que apunta el vector de movimiento en una de las listas de imágenes de referencia. El sumador 50 forma un bloque de vídeo residual restando los valores de píxel del bloque predictivo de los valores de píxel del bloque de vídeo actual que se está codificando, formando valores de diferencia de píxel, como se analiza a continuación. En general, la unidad 42 de estimación de movimiento realiza la estimación de movimiento en relación con los componentes de luma, y la unidad 44 de compensación de movimiento usa vectores de movimiento calculados basándose en los componentes de luma tanto para los componentes de croma como para los componentes de luma. La unidad 40 de selección de modo también genera elementos de sintaxis asociados con los bloques de vídeo y el segmento de vídeo para su uso por el decodificador 30 de vídeo al decodificar los bloques de vídeo del segmento de vídeo.

La unidad 46 de intrapredicción intrapredice un bloque actual, como una alternativa a la interpredicción realizada por la unidad 42 de estimación de movimiento y la unidad 44 de compensación de movimiento, como se describió anteriormente. En particular, la unidad 46 de intrapredicción determina un modo de intrapredicción a usar para codificar un bloque actual. En algunos ejemplos, la unidad 46 de intrapredicción codifica un bloque actual usando varios modos de intrapredicción, por ejemplo, durante pasadas de codificación separadas, y la unidad 46 de intrapredicción (o la unidad 40 de selección de modo, en algunos ejemplos) selecciona un modo de intrapredicción apropiado a usar de los modos probados.

La unidad 46 de intrapredicción calcula los valores de distorsión de tasa usando un análisis de distorsión de tasa para los varios modos de intrapredicción probados, y selecciona el modo de intrapredicción que tenga las mejores características de distorsión de tasa entre los modos probados. El análisis de distorsión de tasa generalmente determina una cantidad de distorsión (o error) entre un bloque codificado y un bloque original sin codificar que fue codificado para producir el bloque codificado, así como una tasa de bits (es decir, un número de bits) usada para producir el bloque codificado. La unidad 46 de intrapredicción calcula relaciones a partir de las distorsiones y tasas para los varios bloques codificados para determinar qué modo de intrapredicción exhibe el mejor valor de distorsión de tasa para el bloque.

Además, la unidad 46 de intrapredicción se configurará para codificar bloques de profundidad de un mapa de profundidad usando un modo de modelado de profundidad (DMM). La unidad 40 de selección de modo determina si un modo DMM disponible produce mejores resultados de codificación que un modo de intrapredicción y los otros modos DMM, por ejemplo, usando optimización de distorsión de tasa (RDO). Los datos para una imagen de textura correspondiente a un mapa de profundidad se almacenan en la memoria 64 de fotogramas de referencia. La unidad 42 de estimación de movimiento y la unidad 44 de compensación de movimiento también se configurarán para interpredecir bloques de profundidad de un mapa de profundidad.

Después de seleccionar un modo de intrapredicción para un bloque (por ejemplo, un modo de intrapredicción convencional o uno de los modos DMM), la unidad 46 de intrapredicción proporciona información indicativa del modo de intrapredicción seleccionado para el bloque a la unidad 56 de codificación de entropía. La unidad 56 de codificación de entropía codifica la información que indica el modo de intrapredicción seleccionado. El codificador 20 de vídeo incluye en los datos de configuración de flujo de bits transmitidos, que incluyen una pluralidad de tablas de índice de modo de intrapredicción y una pluralidad de tablas de índice de modo de intrapredicción modificadas (también denominadas tablas de mapeo de palabras clave), definiciones de contextos de codificación para varios bloques e indicaciones de un modo de intrapredicción más probable, una tabla de índice de modo de intrapredicción y una tabla de índice de modo de intrapredicción modificada a usar en cada uno de los contextos.

El codificador 20 de vídeo forma un bloque de vídeo residual restando los datos de predicción de la unidad 40 de selección de modo del bloque de vídeo original que se está codificando. El sumador 50 representa el componente o componentes que realizan esta operación de resta.

La unidad 52 de procesamiento de transformación aplica una transformación, tal como una transformación de coseno discreta (DCT) o una transformación conceptualmente similar, al bloque residual, produciendo un bloque de vídeo que comprende valores de coeficientes de transformación residual. La unidad 52 de procesamiento de transformación puede realizar otras transformaciones que son conceptualmente similares a DCT. También podrían usarse transformaciones de ondícula, transformaciones de enteros, transformaciones de subbanda u otros tipos de transformaciones.

La unidad 52 de procesamiento de transformación aplica la transformación al bloque residual, produciendo un bloque de coeficientes de transformación residual. La transformación puede convertir la información residual de un dominio de valor de píxel a un dominio de transformación, tal como un dominio de la frecuencia. La unidad 52 de procesamiento de transformación envía los coeficientes de transformación resultantes a la unidad 54 de cuantificación. La unidad 54 de cuantificación cuantifica los coeficientes de transformación para reducir aún más la tasa de bits. El proceso de cuantificación puede reducir la profundidad de bit asociada con algunos o todos los coeficientes. El grado de cuantificación se modifica ajustando un parámetro de cuantificación. En algunos ejemplos, la unidad 54 de cuantificación realiza entonces un escaneo de la matriz que incluya los coeficientes de transformación cuantificados. Alternativamente, la unidad 56 de codificación de entropía realiza el escaneo.

Después de la cuantificación, la unidad 56 de codificación de entropía codifica los coeficientes de transformación cuantificados. La unidad 56 de codificación de entropía realiza la codificación de longitud variable adaptable al contexto (CAVLC), la codificación aritmética binaria adaptable al contexto (CABAC), la codificación aritmética binaria adaptable al contexto basada en sintaxis (SBAC), la codificación de entropía de partición de intervalo de probabilidad (PIPE) u otra técnica de codificación de entropía. En el caso de la codificación de entropía basada en el contexto, el contexto se basa en bloques vecinos. Después de la codificación de entropía por la unidad 56 de codificación de entropía, el flujo de bits codificado se transmitirá a otro dispositivo (por ejemplo, el decodificador 30 de vídeo) o se archiva para su posterior transmisión o recuperación.

La unidad 58 de cuantificación inversa y la unidad 60 de transformación inversa aplican cuantificación inversa y transformación inversa, respectivamente, para reconstruir el bloque residual en el dominio de píxeles, por ejemplo, para uso posterior como bloque de referencia. La unidad 44 de compensación de movimiento calcula un bloque de referencia añadiendo el bloque residual a un bloque predictivo de uno de los fotogramas de la memoria 64 de fotogramas de referencia. La unidad 44 de compensación de movimiento también aplica uno o más filtros de interpolación al bloque residual reconstruido para calcular valores de píxeles subenteros para su uso en la estimación de movimiento. El sumador 62 añade el bloque residual reconstruido al bloque de predicción con compensación de movimiento producido por la unidad 44 de compensación de movimiento para producir un bloque de vídeo reconstruido para su almacenamiento en la memoria 64 de fotogramas de referencia. El bloque de vídeo reconstruido se usará por la unidad 42 de estimación de movimiento y la unidad 44 de compensación de movimiento como un bloque de referencia para intercodificar un bloque en un fotograma de vídeo posterior.

La FIG. 3 es un diagrama de bloques que ilustra un ejemplo de decodificador 30 de vídeo que implementa técnicas de codificación de vídeo. En el ejemplo de la FIG. 3, el decodificador 30 de vídeo incluye una unidad 70 de decodificación de entropía, una unidad 72 de compensación de movimiento, una unidad 74 de intrapredicción, una unidad 76 de cuantificación inversa, una unidad 78 de transformación inversa, una memoria 82 de fotogramas de referencia y un sumador 80. El decodificador 30 de vídeo, en algunos ejemplos, realiza un paso de decodificación generalmente recíproco al paso de codificación descrito con respecto al codificador 20 de vídeo (FIG. 2). La unidad 72 de compensación de movimiento genera datos de predicción basándose en los vectores de movimiento recibidos de la unidad 70 de decodificación de entropía, mientras que la unidad 74 de intrapredicción genera datos de predicción basándose en los indicadores de modo de intrapredicción recibidos de la unidad 70 de decodificación de entropía.

Durante el proceso de decodificación, el decodificador 30 de vídeo recibe un flujo de bits de vídeo codificado que representa bloques de vídeo de un segmento de vídeo codificado y elementos de sintaxis asociados del codificador 20 de vídeo. La unidad 70 de decodificación de entropía del decodificador 30 de vídeo decodifica la entropía del flujo de bits de bits para generar coeficientes cuantificados, vectores de movimiento o indicadores de modo de intrapredicción y otros elementos de sintaxis. La unidad 70 de decodificación de entropía envía los vectores de movimiento y otros elementos de sintaxis a la unidad 72 de compensación de movimiento. El decodificador 30 de vídeo recibe los elementos de sintaxis en el nivel de segmento de vídeo y/o el nivel de bloque de vídeo.

Cuando el segmento de vídeo se codifica como un segmento intracodificado (I), la unidad 74 de intrapredicción genera datos de predicción para un bloque de vídeo del segmento de vídeo actual basándose en un modo de intrapredicción señalizado y datos de bloques anteriormente decodificados del fotograma o imagen actual. Cuando el fotograma de vídeo se codifica como un segmento intercodificado (por ejemplo, B, P o GPB), la unidad 72 de compensación de movimiento produce bloques predictivos para un bloque de vídeo del segmento de vídeo actual basándose en los vectores de movimiento y otros elementos de sintaxis recibidos de unidad 70 de decodificación de entropía. Los bloques predictivos se producen a partir de una de las imágenes de referencia dentro de una de las listas de imágenes de referencia. El decodificador 30 de vídeo construye las listas de fotogramas de referencia, Lista 0 y Lista 1, usando técnicas de construcción predeterminadas basándose en las imágenes de referencia almacenadas en la memoria 82 de fotogramas de referencia.

La unidad 72 de compensación de movimiento determina la información de predicción para un bloque de vídeo del segmento de vídeo actual analizando los vectores de movimiento y otros elementos de sintaxis, y usa la información de predicción para producir los bloques de predicción para el bloque de vídeo actual que se está decodificando. La unidad 72 de compensación de movimiento usa algunos de los elementos de sintaxis recibidos para determinar un modo de predicción (por ejemplo, intra o interpredicción) usado para codificar los bloques de vídeo del segmento de vídeo, un tipo de segmento de interpredicción (por ejemplo, segmento B, segmento P, o segmento GPB), información de construcción para una o más de las listas de imágenes de referencia para el segmento, vectores de movimiento para cada bloque de vídeo intercodificado del segmento, estado de interpredicción para cada bloque de vídeo intercodificado del segmento, y otra información para decodificar los bloques de vídeo en el segmento de vídeo actual.

La unidad 72 de compensación de movimiento también realiza interpolación basándose en los filtros de interpolación. La unidad 72 de compensación de movimiento usa filtros de interpolación como los que usa el codificador 20 de vídeo durante la codificación de los bloques de vídeo para calcular valores interpolados para píxeles subenteros de bloques de referencia. En este caso, la unidad 72 de compensación de movimiento determina los filtros de interpolación usados por el codificador 20 de vídeo a partir de los elementos de sintaxis recibidos y usa los filtros de interpolación para producir bloques predictivos.

Los datos para una imagen de textura correspondiente a un mapa de profundidad se almacenan en la memoria 82 de fotogramas de referencia. La unidad 72 de compensación de movimiento también se configurará para predecir bloques de profundidad de un mapa de profundidad.

La compresión de imágenes y vídeos ha experimentado un rápido crecimiento, lo que ha llevado a varios estándares de codificación. Dichos estándares de codificación de vídeo incluyen H.261 de ITU-T, Parte 2 del Grupo de Expertos de Imágenes en Movimiento (MPEG)-1 del ISO/IEC, H.262 de ITU-T o Parte 2 del MPEG-2 de la Organización Internacional para la Estandarización (ISO)/Comisión Electrotécnica Internacional (IEC), H.263 de ITU-T, Parte 2 de MPEG-4 de ISO/IEC, Codificación de Vídeo Avanzada (AVC), también denominada H.264 de ITU-T o Parte 10 de MPEG-4 de ISO/IEC, y Codificación de Vídeo de Alta Eficiencia (HEVC), también denominada H.265 de ITU-T o Parte 2 de MPEG-H. La AVC incluye extensiones tales como Codificación de Vídeo Escalable (SVC), Codificación de Vídeo Multivista (MVC) y Codificación de Vídeo Multivista más Profundidad (MVC+D) y AVC 3D (3D-AVC). La HEVC incluye extensiones tales como HEVC Escalable (SHVC), HEVC Multivista (MV-HEVC) y HEVC 3D (3D-HEVC).

La Codificación de Vídeo Versátil (VVC) es un nuevo estándar de codificación de vídeo, que está siendo desarrollado por el Equipo Conjunto de Expertos en Vídeo (JVET) de ITU-T e ISO/IEC. En el momento de escribir esta memoria, el último Borrador de Trabajo (WD) de VVC está incluido en JVET-K1001-v1. El documento JVET JVET-K0325-v3 incluye una actualización de la sintaxis de alto nivel de VVC.

En general, la presente descripción describe técnicas basándose en el desarrollo incompleto del estándar VVC. Sin embargo, las técnicas también se aplican a otras especificaciones de códecs de vídeo.

Las técnicas de compresión de vídeo realizan predicción espacial (intraimagen) y/o predicción temporal (interimagen) para reducir o eliminar la redundancia inherente a las secuencias de vídeo. Para la codificación de vídeo basada en bloques, un segmento de vídeo (es decir, una imagen de vídeo o una parte de una imagen de vídeo) se particionará en bloques de vídeo, que también se denominarán bloques de árbol, bloques de árbol de codificación (CTB), unidades de árbol de codificación (CTU), unidades de codificación (CU) y/o nodos de codificación. Los bloques de vídeo en un segmento intracodificado (I) de una imagen se codifican usando predicción espacial con respecto a muestras de referencia en bloques vecinos en la misma imagen. Los bloques de vídeo en un segmento intercodificado (P o B) de una imagen usan predicción espacial con respecto a muestras de referencia en bloques vecinos en la misma imagen o predicción temporal con respecto a muestras de referencia en otras imágenes de referencia. Las imágenes se denominarán fotogramas y las imágenes de referencia se denominarán fotogramas de referencia.

La predicción espacial o temporal da como resultado un bloque predictivo para un bloque a codificar. Los datos residuales representan diferencias de píxeles entre el bloque original a codificar y el bloque predictivo. Un bloque intercodificado se codifica según un vector de movimiento que apunta a un bloque de muestras de referencia que forman el bloque predictivo, y los datos residuales indican la diferencia entre el bloque codificado y el bloque predictivo. Un bloque intracodificado se codifica según un modo de intracodificación y los datos residuales. Para una mayor compresión, los datos residuales se transforman del dominio de píxeles a un dominio de transformación, dando como resultado coeficientes de transformación residuales, que luego se cuantificarán. Los coeficientes de transformación cuantificados, dispuestos inicialmente en una matriz bidimensional, se escanearán para producir un vector unidimensional de coeficientes de transformación, y se aplicarán la codificación de entropía para lograr una compresión aún mayor.

En una especificación de códec de vídeo, las imágenes se identifican para múltiples propósitos, incluido su uso como una imagen de referencia en la interpredicción, para la salida de imágenes del búfer de imágenes decodificadas (DPB), para el escalado de vectores de movimiento, para la predicción ponderada, etc. En AVC y HEVC, las imágenes se pueden identificar mediante el recuento de orden de imagen (POC). En AVC y HEVC, las imágenes en el DPB se pueden marcar como "usadas como referencia a corto plazo", "usadas como referencia a largo plazo" o "no usadas como referencia". Una vez que una imagen ha sido marcada como "no usada como referencia", la imagen ya no se usará para predicción. Cuando la imagen ya no es necesaria para la salida, la imagen se puede eliminar del DPB.

En AVC, hay dos tipos de imágenes de referencia, a corto y largo plazo. Una imagen de referencia debe marcarse como "no usada como referencia" cuando ya no sea necesaria para referencia de predicción. La conversión entre estos tres estados (a corto plazo, a largo plazo y no usada como referencia) se controla mediante el proceso de marcado de imágenes de referencia decodificadas. Hay dos mecanismos alternativos de marcado de imágenes de referencia decodificadas, el proceso de ventana deslizante implícito y el proceso de operación de control de gestión de memoria explícito (Mm CO). El proceso de ventana deslizante marca una imagen de referencia a corto plazo como "no usada como referencia" cuando el número de fotogramas de referencia es igual a un número máximo dado (max_num_ref_frames en el conjunto de parámetros de secuencia (SPS)). Las imágenes de referencia a corto plazo se almacenan por orden de llegada, de manera que las imágenes a corto plazo decodificadas más recientemente se conservan en el DPB.

El proceso MMCO explícito incluye múltiples comandos MMCO. Un comando MMCO marca una o más imágenes de referencia a corto o largo plazo como "no usadas como referencia", marca todas las imágenes como "no usadas como referencia" o marca la imagen de referencia actual o una imagen de referencia a corto plazo existente como de largo plazo y luego asigna un índice de imagen a largo plazo a esa imagen de referencia a largo plazo.

En el AVC, las operaciones de marcado de imágenes de referencia, así como los procesos de salida y eliminación de imágenes del DPB, se realizan después de que se ha decodificado una imagen.

El HEVC introduce un enfoque diferente para la gestión de imágenes de referencia, denominado conjunto de imágenes de referencia (RPS). La diferencia más fundamental con el concepto RPS en comparación con el proceso de MMCO/ventana deslizante de AVC es que para cada segmento en particular se proporciona un conjunto completo de las imágenes de referencia usadas por la imagen actual o cualquier imagen posterior. Por lo tanto, se señaliza un conjunto completo de todas las imágenes que se deben mantener en el DPB para su uso por la imagen actual o futura. Esto es diferente del esquema AVC donde solo se señalizan cambios relativos al DPB. Con el concepto RPS, no se necesita información de imágenes anteriores en el orden de decodificación para mantener el estado correcto de las imágenes de referencia en el DPB.

Se cambia el orden de decodificación de imágenes y las operaciones DPB en HEVC en comparación con AVC para aprovechar las ventajas de RPS y mejorar la resistencia a los errores. En AVC, las operaciones de marcado de imágenes y búfer (tanto la salida como la eliminación de imágenes decodificadas del DPB) generalmente se aplican después de que se haya decodificado una imagen actual. En HEVC, el RPS se decodifica primero desde una cabecera de segmento de la imagen actual, luego se aplican generalmente operaciones de marcado de imagen y búfer antes de decodificar la imagen actual.

Cada cabecera de segmento en HEVC debe incluir parámetros para la señalización del RPS para la imagen que contiene los segmentos. La única excepción es que no se señaliza ningún RPS para los segmentos de Actualización de Decodificación Instantánea (IDR). En cambio, se infiere que el RPS está vacío. Para los segmentos I que no pertenecen a una imagen IDR, se puede proporcionar un RPS, incluso si pertenecen a una imagen I, ya que hay imágenes que siguen a la imagen I en el orden de decodificación que usan interpredicción de imágenes que precedieron a la imagen I en el orden de decodificación. El número de imágenes en un RPS no deberá exceder el límite de tamaño del DPB especificado por el elemento de sintaxis sps_max_dec_pic_buffering en el SPS.

Cada imagen está asociada con un valor de POC que representa el orden de salida. Las cabeceras de segmentos contienen una palabra de código de longitud fija, pic_order_cnt_lsb, que representa los bits menos significativos (LSB) del valor de POC completo, también denominado el LSB de POC. La longitud de la palabra clave se señaliza en el SPS y puede ser de entre 4 y 16 bits. El concepto RPS usa el POC para identificar imágenes de referencia. Además de su propio valor de POC, cada cabecera de segmento contiene directamente o hereda del SPS una representación codificada de los valores de POC (o los LSB) de cada imagen en el RPS.

El RPS para cada imagen consta de cinco listas diferentes de imágenes de referencia, también denominadas los cinco subconjuntos de RPS. RefPicSetStCurrBefore consiste en todas las imágenes de referencia a corto plazo que son anteriores a la imagen actual, tanto en el orden de decodificación como de salida, y que se usarán en la interpredicción de la imagen actual. RefPicSetStCurrAfter consiste en todas las imágenes de referencia a corto plazo que son anteriores a la imagen actual en el orden de decodificación, que suceden a la imagen actual en el orden de salida y se usarán en la interpredicción de la imagen actual. RefPicSetStFoll consiste en todas las imágenes de referencia a corto plazo que se usan en interpredicción de una o más de las imágenes que siguen a la imagen actual en el orden de decodificación, y que no se usan en interpredicción de la imagen actual. RefPicSetLtCurr consiste en todas las imágenes de referencia a largo plazo que se usarán en interpredicción de la imagen actual. RefPicSetLtFoll consiste en todas las imágenes de referencia a largo plazo que se usarán en interpredicción de uno o más de las imágenes que siguen a la imagen actual en el orden de decodificación, y que no se usan en interpredicción de la imagen actual.

El RPS se señaliza usando hasta tres bucles que iteran sobre diferentes tipos de imágenes de referencia; imágenes de referencia a corto plazo con un valor de POC más bajo que la imagen actual, imágenes de referencia a corto plazo con un valor de POC más alto que la imagen actual e imágenes de referencia a largo plazo. Además, se envía un indicador (used_by_curr_pic_X_flag) para cada imagen de referencia que indica si la imagen de referencia se usa como referencia por la imagen actual (incluida en una de las listas RefPicSetStCurrBefore, RefPicSetStCurrAfter o RefPicSetLtCurr) o no (incluida en una de las listas RefPicSetStFoll o RefPicSetLtFoll).

La FIG. 4 ilustra un RPS 400 que tiene una imagen actual B14 con entradas (por ejemplo, una imagen) en todos los subconjuntos 402 del RPS 400. En el ejemplo de la FIG. 4, la imagen actual B14 contiene exactamente una imagen en cada uno de los cinco subconjuntos 402 (también denominados subconjuntos RPS). P8 es la imagen del subconjunto 402 denominada RefPicSetStCurrBefore debido a que la imagen está antes en orden de salida y es usada por B14. P12 es la imagen del subconjunto 402 denominada RefPicSetStCurrAfter debido a que la imagen está después en orden de salida y es usada B14. P13 es la imagen en el subconjunto 402 denominada RefPicSetStFoll debido a que la imagen es una imagen de referencia a corto plazo no usada por B14 (pero debe mantenerse en el DPB ya que es usada por B15). P4 es la imagen del subconjunto 402 denominada RefPicSetLtCurr debido a que la imagen es una imagen de referencia a largo plazo usada por B14. I0 es la imagen del subconjunto 402 denominada RefPicSetLtFoll, ya que la imagen es una imagen de referencia a largo plazo no usada por la imagen actual (pero debe mantenerse en el DPB, ya que es usada por B15).

La parte a corto plazo del RPS 400 se incluirá directamente en la cabecera de segmento. Alternativamente, la cabecera de segmento contiene solo un elemento de sintaxis que representa un índice, haciendo referencia a una lista predefinida de RPS enviados en el SPS activo. La parte a corto plazo del RPS 402 se puede señalizar usando cualquiera de dos esquemas diferentes; InterRPS, como se describe a continuación, o IntraRPS, como se describe aquí. Cuando se usa IntraRPS, num_negative_pics y num_positive_pics se señalizan representando la longitud de dos listas diferentes de imágenes de referencia. Estas listas contienen las imágenes de referencia con diferencia de POC negativa y diferencia de POC positiva en comparación con la imagen actual, respectivamente. Cada elemento de estas listas está codificado con un código de longitud variable que representa la diferencia en el valor de POC en relación con el elemento anterior de la lista menos uno. Para la primera imagen de cada lista, la señalización es relativa al valor de POC de la imagen actual menos uno.

Cuando se codifican los RPS recurrentes en el conjunto de parámetros de secuencia, es posible codificar los elementos de un RPS (por ejemplo, RPS 400) con referencia a otro RPS ya codificado en el conjunto de parámetros de secuencia. Esto se denomina InterRPS. No hay problemas de robustez de errores asociados con este método, ya que todos los RPS del conjunto de parámetros de secuencia están en la misma unidad de Capa de Abstracción de Red (NAL). La sintaxis InterRPS aprovecha el hecho de que el RPS de la imagen actual se puede predecir a partir del RPS de una imagen anteriormente decodificada. Esto se debe a que todas las imágenes de referencia de la imagen actual deben ser imágenes de referencia de la imagen anterior o de la propia imagen decodificada anteriormente. Solo es necesario indicar cuáles de estas imágenes deben ser imágenes de referencia y se usarán para la predicción de la imagen actual. Por lo tanto, la sintaxis comprende lo siguiente: un índice que apunta al RPS a usar como predictor, un delta_POC que se añadirá al delta_POC del predictor para obtener el delta_POC del RPS actual, y un conjunto de indicadores para indicar qué imágenes son imágenes de referencia y si solo se usan para la predicción de imágenes futuras.

Los codificadores que deseen explotar el uso de imágenes de referencia a largo plazo deben establecer el elemento de sintaxis SPS long_term_ref_pics_present_flag en uno. Las imágenes de referencia a largo plazo se pueden señalizar entonces en la cabecera de segmento mediante palabras de código de longitud fija, poc_lsb_lt, que representan los bits menos significativos del valor de POC completo de cada imagen a largo plazo. Cada poc_lsb_lt es una copia de la palabra de código pic_order_cnt_lsb que se señalizó para una imagen particular a largo plazo. También es posible señalizar un conjunto de imágenes a largo plazo en el SPS como una lista de valores LSB de POC. El LSB de POC para una imagen a largo plazo puede ser señalizado en la cabecera de segmento como índice de esta lista.

El elemento de sintaxis delta_poc_msb_cycle_lt_minus1 se puede señalizar adicionalmente para permitir el cálculo de la distancia de POC completa de una imagen de referencia a largo plazo en relación con la imagen actual. Se requiere que la palabra de código delta_poc_msb_cycle_lt_minus1 se señalice para cada imagen de referencia a largo plazo que tenga el mismo valor LSB de p Oc que cualquier otra imagen de referencia en el RPS.

Para el marcado de imágenes de referencia en HEVC, normalmente habrá un número de imágenes presentes en el DPB antes de la decodificación de imágenes. Algunas de las imágenes están disponibles para la predicción y, como tal, marcadas como "usadas como referencia". Otras imágenes no están disponibles para la predicción, pero están esperando la salida y, como tal, están marcadas como "no usadas como referencia". Cuando se ha analizado la cabecera de segmento, se lleva a cabo un proceso de marcado de imagen antes de que se decodifiquen los datos del segmento. Las imágenes que están presentes en el DPB y están marcadas como "usadas como referencia" pero que no están incluidas en el RPS están marcadas como "no usadas como referencia". Las imágenes que no están presentes en el DPB pero que se incluyen en el conjunto de imágenes de referencia se ignoran cuando el parámetro used_by_curr_pic_X_flag es igual a cero. Sin embargo, cuando el parámetro used_by_curr_pic_X_flag en cambio es igual a uno, esta imagen de referencia estaba destinada a ser usada para la predicción en la imagen actual, pero no aparece. Entonces se infiere una pérdida de imagen involuntaria y el decodificador debe tomar las medidas apropiadas.

Después de decodificar la imagen actual, se marca como "usada como referencia a corto plazo".

A continuación, se analiza la construcción de la lista de imágenes de referencia en HEVC. En HEVC, el término interpredicción se usa para denotar predicción derivada de elementos de datos (por ejemplo, valores de muestra o vectores de movimiento) de imágenes de referencia distintas de la imagen decodificada actual. Al igual que en AVC, una imagen se puede predecir a partir de múltiples imágenes de referencia. Las imágenes de referencia que se usan para interpredicción se organizan en una o más listas de imágenes de referencia. El índice de referencia identifica cuál de las imágenes de referencia de la lista debe usarse para crear la señal de predicción.

Se usa una lista de imágenes de referencia única, Lista 0, para un segmento P y se usan dos listas de imágenes de referencia, Lista 0 y Lista 1, para los segmentos B. Similar a AVC, la construcción de la lista de imágenes de referencia en HEVC incluye la inicialización de listas de imágenes de referencia y la modificación de listas de imágenes de referencia.

En AVC, el proceso de inicialización para la Lista 0 es diferente para el segmento P (para el que se usa el orden de decodificación) y los segmentos B (para los que se usa el orden de salida). En HEVC, el orden de salida se usa en ambos casos.

La inicialización de las listas de imágenes de referencia crea la Lista 0 y la Lista 1 por defecto (si el segmento es un segmento B) basándose en tres subconjuntos RPS: RefPicSetStCurrBefore, RefPicSetStCurrAfter y RefPicSetLtCurr. Las imágenes a corto plazo con un orden de salida anterior (posterior) se insertan primero en la Lista 0 (Lista 1) en orden ascendente de distancia de POC a la imagen actual, luego las imágenes a corto plazo con un orden de salida posterior (anterior) se insertan en la Lista 0 (Lista 1) en orden ascendente de distancia de POC a la imagen actual, y luego, finalmente, las imágenes a largo plazo se insertan al final. En términos de RPS, para la Lista 0, las entradas en RefPicSetStCurrBefore se insertan en la lista inicial, seguidas de las entradas en RefPicSetStCurrAfter. Posteriormente, se añaden las entradas en RefPicSetLtCurr, si están disponibles.

En HEVC, se repite el proceso anterior (se añaden nuevamente las imágenes de referencia que ya se han añadido a la lista de imágenes de referencia) cuando el número de entradas de una lista es menor que el número objetivo de imágenes de referencia activas (señalizadas en el conjunto de parámetros de imagen o en la cabecera de segmento). Cuando el número de entradas es mayor que el número objetivo, la lista se trunca.

Una vez inicializada una lista de imágenes de referencia, debe modificarse de manera que las imágenes de referencia para la imagen actual se dispongan en cualquier orden, incluido el caso donde una imagen de referencia particular aparezca en más de una posición de la lista, basándose en los comandos de modificación de listas de imágenes de referencia. Cuando el indicador que indica la presencia de modificaciones de la lista se establece en uno, se señaliza un número fijo (igual al número objetivo de entradas en la lista de imágenes de referencia) de comandos y cada comando inserta una entrada para una lista de imágenes de referencia. Una imagen de referencia se identifica en el comando por el índice de la lista de imágenes de referencia para la imagen actual derivada de la señalización RPS. Esto es diferente de la modificación de listas de imágenes de referencia en H.264/AVC, en donde una imagen se identifica ya sea por el número de imagen (derivado del elemento de sintaxis frame_num) o el índice de imagen de referencia a largo plazo, y es posible que se necesiten menos comandos, por ejemplo, para intercambiar las dos primeras entradas de una lista inicial o insertar una entrada al comienzo de la lista inicial y desplazar las demás.

Una lista de imágenes de referencia no está permitida que incluya ninguna imagen de referencia con un TemporalId superior al de la imagen actual. Un flujo de bits HEVC puede consistir en varias subcapas temporales. Cada unidad NAL pertenece a una subcapa específica según lo indicado por TemporalId (igual a temporal_id_plus1 - 1).

La gestión de imágenes de referencia se basa directamente en listas de imágenes de referencia. El documento JCT-VC JCTVC-G643 incluye un enfoque para usar directamente tres listas de imágenes de referencia, lista 0 de imágenes de referencia, lista 1 de imágenes de referencia y una lista de imágenes de referencia inactiva, para la gestión de las imágenes de referencia en el DPB, evitando así la necesidad de los procesos de señalización y decodificación, incluidos 1) la ventana deslizante y los procesos de MMCO, así como los procesos de inicialización y modificación de listas de imágenes de referencia en AVC, o 2) el conjunto de imágenes de referencia, así como los procesos de inicialización y modificación de listas de imágenes de referencia en HEVC.

Los enfoques para la gestión de imágenes de referencia tienen varios problemas. El enfoque AVC involucra la ventana deslizante, los procesos MMCO y los procesos de inicialización y modificación de listas de imágenes de referencia, que son complejos. Además, la pérdida de imágenes conduce a la pérdida del estado del DPB en términos de qué imágenes deberían haber estado en el DPB para fines de referencia de interpredicción. El enfoque HEVC no tiene el problema de pérdida de estado de DPB. Sin embargo, el enfoque HEVC implica un complejo proceso de señalización y derivación de conjuntos de imágenes de referencia, así como los procesos de inicialización y modificación de listas de imágenes de referencia, que son complejos. El enfoque en JCTVC-G643 para usar directamente tres listas de imágenes de referencia, lista 0 de imágenes de referencia, lista 1 de imágenes de referencia, así como una lista de imágenes de referencia inactiva, para la gestión de las imágenes de referencia en el DPB implica los siguientes aspectos: una tercera lista de imágenes de referencia, es decir, la lista de imágenes de referencia inactiva; la codificación en dos partes de las diferencias de POC como una parte "a corto plazo" y una parte "a largo plazo" codificada por ue(v); la granularidad de POC basada en TemporalId para la codificación de diferencias de POC, el uso de la codificación en dos partes de las diferencias de POC para la determinación de la marca entre "usada como referencia a corto plazo" o "usada como referencia a largo plazo"; una descripción del subconjunto de la lista de imágenes de referencia, que habilita la capacidad de especificar una lista de imágenes de referencia eliminando imágenes de referencia de la cola de una cierta descripción anterior de la lista de imágenes de referencia; el modo de copia de listas de imágenes de referencia habilitado por el elemento de sintaxis ref_pic_list_copy_flag; y el proceso de descripción de listas de imágenes de referencia. Cada uno de los aspectos anteriores hace que el enfoque sea innecesariamente complejo. Además, el proceso de decodificación de las listas de imágenes de referencia en JCTVC-G643 también es complejo. La señalización de imágenes de referencia a largo plazo necesita la señalización del ciclo de POC en las cabeceras de segmentos. Esto no es eficiente.

Con el fin de abordar los problemas enumerados anteriormente, se describen en la presente memoria las siguientes soluciones, cada una de las cuales se aplicará individualmente y algunas de las cuales se pueden aplicar en combinación. 1) El marcado de imágenes de referencia se basa directamente en las dos listas de imágenes de referencia, a saber, la lista 0 de imágenes de referencia y la lista 1 de imágenes de referencia.

1a) La información para derivación de las dos listas de imágenes de referencia se señaliza basándose en los elementos de sintaxis y las estructuras de sintaxis en el SPS, PPS y/o la cabecera de segmento. 1b) Cada una de las dos listas de imágenes de referencia para una imagen se señaliza explícitamente en una estructura de lista de imágenes de referencia. 1b.i) Una o más estructuras de listas de imágenes de referencia pueden ser señalizadas en SPS y cada una de ellas puede ser referenciada por un índice desde la cabecera de segmento.

1b.ii) Cada una de las listas 0 y 1 de imágenes de referencia se puede señalizar directamente en la cabecera de segmento. 2) La información para derivación de las dos listas de imágenes de referencia se señaliza para todos los tipos de segmentos, es decir, B (bipredictivo), P (unipredictivo) e I (intra) segmentos. El término segmento se refiere a un conjunto de unidades de árbol de codificación, tal como un segmento en HEVC o la última WD de VVC; también se refiere a algún otro conjunto de unidades de árbol de codificación, tal como un mosaico en HEVC. 3) Las dos listas de imágenes de referencia se generan para todos los tipos de segmentos, es decir, segmentos B, P e I. 4) Las dos listas de imágenes de referencia se construyen directamente sin usar un proceso de inicialización de listas de imágenes de referencia y un proceso de modificación de listas de imágenes de referencia. 5) En cada una de las dos listas de imágenes de referencia, solo se puede hacer referencia a las imágenes de referencia que se usarán para la predicción de la imagen actual mediante un número de entradas al principio de la lista. Estas entradas se denominan entradas activas en la lista, mientras que otras entradas se denominan entradas inactivas en la lista. El número de entradas totales y el número de entradas activas en la lista pueden derivarse. 6) La imagen a la que hace referencia una entrada inactiva en una lista de imágenes de referencia no se permite que sea referida por otra entrada en la lista de imágenes de referencia o por cualquier entrada en la otra lista de imágenes de referencia. 7) Las imágenes de referencia a largo plazo solo se identifican mediante un cierto número de LSB de POC, donde este número es mayor que el número de LSB de POC señalizados en las cabeceras de segmentos para derivación de valores de POC, y este número se indica en el SPS. 8) Las estructuras de listas de imágenes de referencia se señalizan solo en las cabeceras de segmentos, tanto las imágenes de referencia a corto plazo como las imágenes de referencia a largo plazo se identifican mediante sus LSB de POC, que se pueden representar mediante números de bits que son diferentes del número de bits usados para representar los LSB de POC señalizados en las cabeceras de segmentos para derivación de valores de POC, y los números de bits usados para representar los LSB de POC para identificar imágenes de referencia a corto plazo e imágenes de referencia a largo plazo son diferentes. 9) Las estructuras de listas de imágenes de referencia se señalizan solo en cabeceras de segmentos, no se hace distinción entre imágenes de referencia a corto y largo plazo, todas las imágenes de referencia se denominan simplemente imágenes de referencia y las imágenes de referencia se identifican por sus LSB de POC, que se representan por un número de bits que es diferente del número de bits usados para representar los LSB de POC señalizados en cabeceras de segmentos para derivación de valores de POC.

Se proporciona una primera realización de la presente descripción. La descripción es relativa al último WD de VVC. En esta realización, dos conjuntos de estructuras de listas de imágenes de referencia se señalizan en el SPS, uno para cada una de la lista 0 de imágenes de referencia y la lista 1 de imágenes de referencia.

Se proporcionan definiciones para algunos de los términos usados en la presente memoria. Una imagen de punto de acceso intraaleatorio (IRAP): una imagen codificada para la cual cada unidad NAL de Capa de Codificación de Vídeo (VCL) tiene nal_unit_type igual a IRAP_NUT. Imagen no IRAP: una imagen codificada para la cual cada unidad NAL de VCL tiene nal_unit_type igual a NON_IRAP_NUT. Lista de imágenes de referencia: una lista de imágenes de referencia que se usa para interpredicción de un segmento P o B. Se generan dos listas de imágenes de referencia, la lista 0 de imágenes de referencia y la lista 1 de imágenes de referencia, para cada segmento de una imagen no IRAP. El conjunto de imágenes únicas a las que hacen referencia todas las entradas de las dos listas de imágenes de referencia asociadas con una imagen consiste en todas las imágenes de referencia que se usarán para la interpredicción de la imagen asociada o cualquier imagen que siga a la imagen asociada en el orden de decodificación. Para decodificar los datos del segmento P, solo se usa la lista 0 de imágenes de referencia para interpredicción. Para decodificar los datos del segmento B, se usan ambas listas de imágenes de referencia para interpredicción. Para decodificar los datos del segmento un segmento I, no se usa ninguna lista de imágenes de referencia para interpredicción. Imagen de Referencia a Largo Plazo (LTRP): una imagen que se marca como "usada como referencia a largo plazo". Imagen de Referencia a Corto Plazo (STRP): una imagen que se marca como "usada como referencia a corto plazo".

Los términos "usada como referencia a corto plazo", "usada como referencia a largo plazo" o "no usada como referencia" se definen en VVC en la sección 8.3.3 Proceso de decodificación para el marcado de imágenes de referencia, definido en HEVC en la sección 8.3.2 Proceso de decodificación para el conjunto de imágenes de referencia, y definido en AVC en la sección 7.4.3.3 Semántica de marcado de imágenes de referencia decodificadas. Tal como se usa en la presente memoria, los términos tienen el mismo significado.

La sintaxis y semántica relevantes para la primera realización se proporcionan a continuación.

Sintaxis de cabecera de unidad NAL.

Sintaxis de Carga Útil de Secuencia de Bytes Sin Procesar (RBSP) del conjunto de parámetros de secuencia

Sintaxis RBSP del conjunto de parámetros de imagen.

Sintaxis de cabecera de segmento.

Sintaxis de la estructura de lista de imágenes de referencia.

Semántica de cabecera de unidad NAL.

Un forbidden_zero_bit será igual a 0. nal_unit_type especifica el tipo de estructura de datos RBSP contenida en la unidad NAL.

Tabla 7-1 - Códigos de tipo de unidad NAL y clases de tipo de unidad NAL

El nuh_temporal_id_plus1 menos 1 especifica un identificador temporal para la unidad NAL. El valor de nuh_temporal_id_plus1 no será igual a 0. La variable TemporalId se especifica de la siguiente manera: TemporalId = nuh_temporal _id_plus1 - 1. Cuando nal_unit_type es igual a iRa P_NUT, el segmento codificado pertenece a una imagen IRAP, TemporalId será igual a 0. El valor de TemporalId será el mismo para todas las unidades NAL de VCL de una unidad de acceso. El valor de TemporalId de una imagen codificada o de una unidad de acceso es el valor de TemporalId de las unidades NAL de VCL de la imagen codificada o de la unidad de acceso. El valor de TemporalId para las unidades NAL no VCL se limita de la siguiente manera: si nal_unit_type es igual a SPS_NUT, TemporalId será igual a 0 y TemporalId de la unidad de acceso que contiene la unidad NAL será igual a 0. De lo contrario, si nal_unit_type es igual a EOS_NUT o EOB_n Ut , TemporalId será igual a 0. De lo contrario, TemporalId será mayor o igual que TemporalId de la unidad de acceso que contiene la unidad NAL. Cuando la unidad NAL es una unidad NAL no VCL, el valor de TemporalId es igual al valor mínimo de los valores de TemporalId de todas las unidades de acceso a las que se aplica la unidad NAL no VCL. Cuando nal_unit_type es igual a PPS_NUT, TemporalId es mayor o igual que TemporalId de la unidad de acceso que contiene, ya que todos los conjuntos de parámetros de imagen (PPS) se incluirán al comienzo de un flujo de bits, en donde la primera imagen codificada tiene TemporalId igual a 0. Cuando nal_unit_type es igual a PREFIX_SEI_NUT o SUFFIX_SEI_NUT, TemporalId es mayor o igual que TemporalId de la unidad de acceso que contiene, ya que una unidad NAL de SEI contiene información que se aplica a un subconjunto de flujo de bits que incluye unidades de acceso para las que los valores de TemporalId son mayores que TemporalId de la unidad de acceso que contiene la unidad NAL de SEI. nuh_reserved_zero_7bits será igual a '0000000'. Otros valores de nuh_reserved_zero_7bits serán especificados en el futuro por la ITU-T | ISO/IEC. Los decodificadores ignorarán (es decir, eliminarán del flujo de bits y descartarán) las unidades<n>A<l>con valores de nuh_reserved_zero_7bits no iguales a '0000000'.

Semántica RBSP del conjunto de parámetros de secuencia.

Un log2_max_pic_order_cnt_lsb_minus4 especifica el valor de la variable MaxPicOrderCntLsb que se usa en el proceso de decodificación para el recuento de orden de imagen de la siguiente manera: MaxPicOrderCntLsb = 2 ( log2_max_pic_order_cnt_lsb_minus4 4 ). El valor de log2_max_pic_order_cnt_lsb_minus4 estará en el intervalo de 0 a 12, ambos inclusive. sps_max_dec_pic_buffering_minus1 más 1 especifica el tamaño máximo requerido del búfer de imágenes decodificadas para la CVS en unidades de búferes de almacenamiento de imágenes. El valor de sps_max_dec_pic_buffering _minus1 estará en el intervalo de 0 a MaxDpbSize - 1, ambos inclusive, donde MaxDpbSize es como se especifica en otro lugar. long_term_ref_pics_flag igual a 0 especifica que no se usa LTRP para la interpredicción de ninguna imagen codificada en la CVS. long_term_ref_pics_flag igual a 1 especifica que se usarán LTRP para la interpredicción de una o más imágenes codificadas en la CVS. additional_lt_poc_lsb especifica el valor de la variable MaxLtPicOrderCntLsb que se usa en el proceso de decodificación para las listas de imágenes de referencia de la siguiente manera: MaxLtPicOrderCntLsb = 2( log2_max_pic_order_cnt_lsb_minus4 4 additional_lt_poc_lsb ). El valor de additional_lt_poc_lsb estará en el intervalo 0 y 32 - log2_max_pic_order_cnt_lsb_minus4 - 4, ambos inclusive. Cuando no está presente, el valor de additional_lt_poc_lsb se infiere que es igual a 0. num_ref_pic_lists_in_sps[ i ] especifica el número de las estructuras de sintaxis ref_pic_list_struct( listIdx, rplsIdx, ltrpFlag ) con listIdx igual a i incluidas en el SPS. El valor de num_ref_pic_lists_in_sps[ i ] estará en el intervalo de 0 a 64, ambos inclusive. Para cada valor de listIdx (igual a 0 o 1), un decodificador debe asignar memoria para un número total de estructuras de sintaxis num_ref_pic_lists_in_sps[ i ] 1 ref_pic_list_struct( listIdx, rplsIdx, ltrpFlag ) ya que hay una estructura de sintaxis ref_pic_list_struct( listIdx, rplsIdx, ltrpFlag ) directamente señalizada en las cabeceras de segmentos de una imagen actual.

Semántica RBSP del conjunto de parámetros de imagen.

Un num_ref_idx_default_active_minus1[ i ] más 1, cuando i es igual a 0, especifica el valor inferido de la variable NumRefIdxActive[ 0 ] para los segmentos P o B con num_ref_idx_active_override_flag igual a 0, y, cuando i es igual a 1, especifica el valor inferido de NumRefIdxActive[ 1 ] para los segmentos B con num_ref_idx_active_override_flag igual a 0. El valor de num_ref_idx_default_active_minus1[ i ] estará en el intervalo de 0 a 14, ambos inclusive.

Semántica de cabecera de segmento.

Cuando está presente, el valor de cada uno de los elementos de sintaxis de cabecera de segmento slice_pic_parameter_set_id y slice_pic_order_cnt_lsb será el mismo en todas las cabeceras de segmentos de una imagen codificada.... slice_type especifica el tipo de codificación del segmento según la Tabla 7-3.

Tabla 7-3 - Asociación de nombres a slice_type

Cuando nal_unit_type es igual a IRAP_NUT, es decir, la imagen es una imagen IRAP, slice_type será igual a 2.... slice_pic_order_cnt_lsb especifica el módulo de recuento de orden de imagen MaxPicOrderCntLsb para la imagen actual. La longitud del elemento de sintaxis slice_pic_order_cnt_lsb es log2_max_pic_order_cnt_lsb_minus4 4 bits. El valor de slice_pic_order_cnt_lsb estará en el intervalo de 0 a MaxPicOrderCntLsb - 1, ambos inclusive. Cuando slice_pic_order_cnt_lsb no está presente, se infiere que slice_pic_order_cnt_lsb es igual a 0. ref_pic_list sps_flag[ i ] igual a 1 especifica que la lista de imágenes de referencia i de la imagen actual se deriva basándose en las estructuras de sintaxis ref_pic_list_struct( listIdx, rplsIdx, ltrpFlag ) con listIdx igual a i en el SPS activo. ref_pic_list_sps_flag[ i ] igual a 0 especifica que la lista de imágenes de referencia i de la imagen actual se deriva basándose en la estructura de sintaxis ref_pic_list_struct( listIdx, rplsIdx, ltrpFlag ) con listIdx igual a i que se incluye directamente en las cabeceras de segmentos de la imagen actual. Cuando num_ref_pic_lists_in_sps[ i ] es igual a 0, el valor de ref_pic_list_sps_flag[ i ] será igual a 0. ref_pic_list_idx[ i ] especifica el índice, en la lista de la estructura de sintaxis ref_pic_list_struct( listIdx, rplsIdx, ltrpFlag ) con listIdx igual a i incluida en el SPS activo, de la estructura de sintaxis ref_pic_list_struct( listIdx, rplsldx, ItrpFlag ) con listIdx igual a i que se usa para derivación de la lista de imágenes de referencia i de la imagen actual. El elemento de sintaxis ref_pic_list_idx[ i ] se representa por Ceil( Log2( num_ref_pic_lists_in_sps[ i ] ) ) bits. Cuando no está presente, el valor de ref_pic_list_idx[ i ] se infiere que es igual a 0. El valor de ref_pic_list_idx[ i ] estará en el intervalo de 0 a num_ref_ pic_lists_in_sps[ i ] - 1, ambos inclusive. num_ref_idx_active_override_flag igual a 1 especifica que el elemento de sintaxis num_ref_idx_active_minus1[ 0 ] está presente para los segmentos P y B y que el elemento de sintaxis num_ref_idx_active_minus1[ 1 ] está presente para los segmentos B. num_ref_idx_active_override_flag igual a 0 especifica que los elementos de sintaxis num_ref_idx_active_minus1[ 0 ] y num_ref_idx_active_minus1 [ 1] no están presentes. num_ref_idx_active_minus1[ i ], cuando está presente, especifica el valor de la variable NumRefIdxActive[ i ] de la siguiente manera: NumRefIdxActive[ i ] = num_ref_idx_active_minus1 [ i ] 1. El valor de num_ref_idx_active_minus1 [ i ] estará incluido en el intervalo 0 a 14, ambos inclusive.

El valor de NumRefIdxActive[ i ] - 1 especifica el índice de referencia máximo para la lista de imágenes de referencia i que se usará para decodificar el segmento. Cuando el valor de NumRefIdxActive[ i ] es igual a 0, no se usará ningún índice de referencia para la lista de imágenes de referencia i para decodificar el segmento. Para i igual a 0 o 1, cuando el segmento actual es un segmento B y num_ref_idx_active_override_flag es igual a 0, se infiere que NumRefIdxActive[ i ] es igual a num_ref_idx_default_active_minus1[ i ] 1. Cuando el segmento actual es un segmento P y num_ref_idx_active_override_flag es igual a 0, se infiere que NumRefIdxActive[ 0 ] es igual a num_ref_idx_default_active_minus1[ 0 ] 1. Cuando el segmento actual es un segmento P, se infiere que NumRefIdxActive[ 1 ] es igual a 0. Cuando el segmento actual es un segmento I, tanto NumRefIdxActive[ 0 ] como NumRefIdxActive[ 1 ] se infieren que son iguales a 0.

Alternativamente, para i igual a 0 o 1, se aplica lo siguiente después de lo anterior: sea rplsIdx1 igual a ref_pic_listsps_flag[ i ] ? ref_pic_list_idx[ i ] : num_ref_pic_lists_in_sps[ i ], y numRpEntries[ i ] igual a num_strp_entries[ i ][ rplsIdx1 ] num_ltrp_entries[ i ][ rplsIdx1 ]. Cuando NumRefIdxActive[ i ] es mayor que numRpEntries[ i ], el valor de NumRefIdxActive[ i ] se establece igual a numRpEntries[ i ].

Semántica de estructura de lista de imágenes de referencia.

La estructura de sintaxis ref_pic_list_struct( listIdx, rplsIdx, ltrpFlag ) estará presente en un SPS o en una cabecera de segmento. Dependiendo de si la estructura de sintaxis está incluida en una cabecera de segmento o en un SPS, se aplica lo siguiente: si está presente en una cabecera de segmento, la estructura de sintaxis ref_pic_list_struct( listIdx, rplsIdx, ltrpFlag ) especifica la lista de imágenes de referencia listIdx de la imagen actual (la imagen que contiene el segmento). De lo contrario (presente en un SPS), la estructura de sintaxis ref_pic_list_struct( listIdx, rplsIdx, ltrpFlag ) especifica un candidato para la lista de imágenes de referencia listIdx, y el término "la imagen actual" en la semántica especificada en el resto de esta sección se refiere a cada imagen que 1) tiene uno o más segmentos que contienen ref_pic_list_idx[ listIdx ] igual a un índice en la lista de las estructuras de sintaxis ref_pic_list_struct( listIdx, rplsIdx, ltrpFlag ) incluidas en el SPS, y 2) está en una CVS que tiene el SPS como el SPS activo. num_strp_entries[ listIdx ][ rplsIdx ] especifica el número de entradas STRP en la estructura de sintaxis ref_pic_list_struct( listIdx, rplsIdx, ltrpFlag). num_ltrp_entries[ listIdx ][ rplsIdx ] especifica el número de entradas LTRen la estructura de sintaxis ref_pic_list_struct( listIdx, rplsIdx, ltrpFlag). Cuando no está presente, el valor de num_ltrp_entries[ listIdx ][ rplsIdx ] se infiere que es igual a 0. La variable NumEntriesInList[ listIdx ][ rplsIdx ] se deriva de la siguiente manera: NumEntriesInList[ listIdx ][ rplsIdx ] = num_strp_entries[ listIdx ][ rplsIdx ] num_ltrp_entries[ listIdx ] [ rplsIdx ]. El valor de NumEntriesInList[ listIdx ][ rplsIdx ] estará en el intervalo de 0 a sps_max_dec_pic_buffering_minus1, ambos inclusive. lt_ref_pic_flag listIdx ][ rplsIdx ][ i ] igual a 1 especifica que la i-ésima entrada en la sintaxis ref_pic_list_struct( listIdx, rplsIdx, ltrpFlag ) es una entrada LTRP. lt_ref_pic_flag[ listIdx ][ rplsIdx ][ i ] igual a 0 especifica que la i-ésima entrada en la estructura de sintaxis ref_pic_list_struct, listIdx( listIdx rplsldx, ltrpFlag ) es una entrada STRP. Cuando no está presente, se infiere que el valor de lt_ref_pic_flag[ listIdx ][ rplsIdx ][ i ] es igual a 0. Es un requisito de conformidad del flujo de bits que la suma de lt_ref_pic_flag[ listIdx ][ rplsIdx ][ i ] para todos los valores de i en el intervalo de 0 a NumEntriesInList[ listIdx ][ rplsIdx ] - 1, ambos inclusive, será igual a num_ltrp_entries[ listIdx ][ rplsIdx ]. delta_poc_st[ listIdx ][ rplsIdx ][ i ], cuando la i-ésima entrada es la primera entrada STRP en la estructura de sintaxis ref_pic_list_struct( rplsIdx, ltrpFlag ), especifica la diferencia entre los valores de recuento de orden de imagen de la imagen actual y la imagen a la que hace referencia la i-ésima entrada o, cuando la i-ésima entrada es una entrada STRP pero no la primera entrada STRP en la estructura de sintaxis ref_pic_list_struct( rplsIdx, ltrpFlag ), especifica la diferencia entre los valores de recuento de orden de imagen de las imágenes a las que hace referencia la i-ésima entrada y la entrada STRP anterior en la estructura de sintaxis ref_pic_list_struct( listIdx, rplsIdx, ltrpFlag ). El valor de delta_poc_st[ listIdx ][ rplsIdx ][ i ] estará en el intervalo de -215 a 215 - 1, ambos inclusive. poc_lsb_lt[ listIdx ][ rplsIdx ][ i ] especifica el valor del módulo de recuento de orden de imagen MaxLtPicOrderCntLsb de la imagen a la que se refiere la i-ésima entrada en la estructura de sintaxis ref_pic_list_struct( listIdx, rplsIdx, ltrpFlag ). La longitud del elemento de sintaxis poc_lsb_lt[ listIdx ][ rplsIdx ][ i ] es Log2( MaxLtPicOrderCntLsb ) bits.

Se analiza el proceso de decodificación. El proceso de decodificación funciona de la siguiente manera para la imagen actual de CurrPic. La decodificación de las unidades NAL se especifica a continuación. Los procesos siguientes especifican los siguientes procesos de decodificación usando elementos de sintaxis en la capa de cabecera de segmento y superiores. Se derivan variables y funciones relacionadas con el recuento de orden de imagen. Esto debe invocarse solo para el primer segmento de una imagen. Al comienzo del proceso de decodificación para cada segmento de una imagen no IRAP, se invoca el proceso de decodificación para la construcción de listas de imágenes de referencia para derivación de la lista 0 de imágenes de referencia (RefPicList[ 0 ]) y la lista 1 de imágenes de referencia (RefPicList[ 1 ]). Se invoca el proceso de decodificación para el marcado de imágenes de referencia, en donde las imágenes de referencia se marcan como "no usadas como referencia" o "usadas como referencia a largo plazo". Esto debe invocarse solo para el primer segmento de una imagen. Se invocan los procesos de decodificación para codificar unidades de árbol, escalar, transformar, filtrar en bucle, etc. Después de que se hayan decodificado todos los segmentos de la imagen actual, la imagen decodificada actual se marca como "usada como referencia a corto plazo".

Se analiza el proceso de decodificación de la unidad NAL. Las entradas a este proceso son unidades NAL de la imagen actual y sus unidades NAL no VCL asociadas. Las salidas de este proceso son las estructuras de sintaxis RBSP analizadas encapsuladas dentro de las unidades NAL. El proceso de decodificación para cada unidad NAL extrae la estructura de sintaxis RBSP de la unidad NAL y, a continuación, analiza la estructura de sintaxis RBSP.

Se analiza el proceso de decodificación de segmentos, incluido el proceso de decodificación para el recuento de orden de imagen. La salida de este proceso es PicOrderCntVal, el recuento de orden de imagen de la imagen actual. Los recuentos de orden de imagen se usan para identificar imágenes, para derivar parámetros de movimiento en modo de fusión y predicción de vectores de movimiento, y para la verificación de conformidad del decodificador. Cada imagen codificada está asociada con una variable de recuento de orden de imagen, denominada PicOrderCntVal. Cuando la imagen actual no es una imagen IRAP, las variables prevPicOrderCntLsb y prevPicOrderCntMsb se derivan de la siguiente manera: sea prevTid0Pic la imagen anterior en el orden de decodificación que tenga TemporalId igual a 0. La variable prevPicOrderCntLsb se establece igual a slice_pic_order_cnt_lsb de prevTid0Pic. La variable prevPicOrderCntMsb se establece igual a PicOrderCntMsb de prevTid0Pic.

La variable PicOrderCntMsb de la imagen actual se deriva de la siguiente manera: si la imagen actual es una imagen IRAP, PicOrderCntMsb se establece igual a 0. De lo contrario, PicOrderCntMsb se deriva de la siguiente manera:

if( ( slice_pic_order_cnt_lsb < prevPicOrderCntLsb ) &&

( ( prevPicOrderCntLsb - slice_pic_order_cnt_lsb ) >= ( MaxPicOrderCntLsb / 2 ) ) )

PicOrderCntMsb = prevPicOrderCntMsb MaxPicOrderCntLsb

else if( (slice_pic_order_cnt_lsb > prevPicOrderCntLsb ) &&

( ( slice_pic_order_cnt_lsb - prevPicOrderCntLsb ) > ( MaxPicOrderCntLsb / 2 ) ) )

PicOrderCntMsb = prevPicOrderCntMsb - MaxPicOrderCntLsb

else

PicOrderCntMsb = prevPicOrderCntMsb

PicOrderCntVal se deriva de la siguiente manera: PicOrderCntVal = PicOrderCntMsb slice_pic_order_cnt_lsb.

Todas las imágenes IRAP tendrán PicOrderCntVal igual a 0, ya que slice_pic_order_cnt_lsb se infiere que es 0 para las imágenes IRAP y prevPicOrderCntLsb y prevPicOrderCntMsb se establecen igual a 0. El valor de PicOrderCntVal estará en el intervalo de -231 a 231 - 1, ambos inclusive. En una CVS, los valores de PicOrderCntVal para dos imágenes codificadas cualesquiera no serán los mismos.

En cualquier momento durante el proceso de decodificación, los valores de PicOrderCntVal & ( MaxLtPicOrderCntLsb - 1 ) para dos imágenes de referencia cualesquiera en el DPB no serán los mismos. La función PicOrderCnt( picX ) se especifica de la siguiente manera: PicOrderCnt( picX ) = PicOrderCntVal de la imagen picX. La función DiffPicOrderCnt( picA, picB ) se especifica de la siguiente manera: DiffPicOrderCnt( picA, picB ) = PicOrderCnt( picA ) - PicOrderCnt( picB). El flujo de bits no contendrá datos que den como resultado valores de DiffPicOrderCnt( picA, picB ) usados en el proceso de decodificación que no estén en el intervalo de -215 a 215 - 1, ambos inclusive. Sea X la imagen actual e Y y Z sean otras dos imágenes en la misma secuencia de vídeo codificada (CVS), Y y Z se consideran que están en la misma dirección de orden de salida de X cuando DiffPicOrderCnt( X, Y ) y DiffPicOrderCnt( X, Z ) son positivos o ambos son negativos.

Se analiza el proceso de decodificación para la construcción de listas de imágenes de referencia. Este proceso se invoca al principio del proceso de decodificación para cada segmento de una imagen que no es IRAP. Las imágenes de referencia se abordan a través de índices de referencia. Un índice de referencia es un índice en una lista de imágenes de referencia. Cuando se decodifica un segmento I, no se usa ninguna lista de imágenes de referencia en la decodificación de los datos del segmento. Cuando se decodifica un segmento P, solo se usa la lista 0 de imágenes de referencia (es decir, RefPicList[ 0 ]) en la decodificación de los datos del segmento. Cuando se decodifica un segmento B, tanto la lista 0 de imágenes de referencia como la lista 1 de imágenes de referencia (es decir, RefPicList[ 1 ]) se usan en la decodificación de los datos del segmento. Al comienzo del proceso de decodificación para cada segmento de una imagen no IRAP, se derivan las listas de imágenes de referencia RefPicList[ 0 ] y RefPicList[ 1 ]. Las listas de imágenes de referencia se usan en el marcado de imágenes de referencia o en la decodificación de los datos del segmento. Para un segmento I de una imagen no IRAP que no es el primer segmento de la imagen, RefPicList[ 0 ] y RefPicList[ 1 ] se derivarán para verificar la conformidad del flujo de bits, pero su derivación no es necesaria para la decodificación de la imagen o las imágenes actuales que siguen a la imagen actual en el orden de decodificación. Para un segmento P que no es el primer segmento de una imagen, RefPicList[ 1 ] se derivará para verificar la conformidad del flujo de bits, pero su derivación no es necesaria para la decodificación de la imagen o las imágenes actuales que siguen a la imagen actual en el orden de decodificación. Las listas de imágenes de referencia RefPicList[ 0 ] y RefPicList[ 1 ] se construyen de la siguiente manera:

for( i = 0; i< 2; i++) {

if( ref_pic_list_sps_f1ag[ i])

Rplsldxf i ] = ref_pic_list_idx[ i I

else

Rplsldxf i ] = mim_ref_pic_lists_in_sps[ i ]

for(j = 0, pocBasc = PicOrderCntVal; j < NumEntriesInListf i ][ Rplsldxf i ) ]; j++) {

if( !lt_rcf_pic_flag[ i ][ Rplsldxf i ] I[ j ] ) í

RcIPícPocListf i || j | = pocBasc - dclta_poc_sl[ i ][ Rplskl\[ i ] )| j |

ifíhay una imagen de referencia picAen el DPB con PicOrderCntVal igual a RefPicPocListí i ][ i 1) RcfPicList[ i || j ] = picA

else

RefPícListl i ]| j ] = “ninguna imagen de referencia"

pocBasc = RdPicPocListf i || j J

} else {

if( hay una referencia picA en el DPB con PicOrderCntVal &(MaxLtPicOrderCnlLsb - 1 )

igual a pocjsbjtf i || Rplsldx| i 11| j | )

RefPicListf i 1 [ j ] = picA

else

RefPicListf i ]| j ] = “ninguna imagen de referencia"

}

Para cada i igual a 0 o 1, se aplica lo siguiente: las primeras entradas NumRefIdxActive[ i ] en RefPicList[ i ] se denominan entradas activas en RefPicList[ i ], y las demás entradas en RefPicList[ i ] se denominan entradas inactivas en RefPicList[ i ]. Cada entrada en RefPicList[ i ][ j ] para j en el intervalo de 0 a NumEntriesInList[ i ][ RplsIdx[ i ] ] - 1, ambos inclusive, se denomina entrada STRP si lt_ref_pic__flag[ i ][ RplsIdx[ i ] ][ j ] es igual a 0, y entrada LTRP de lo contrario. Es posible que se haga referencia a una imagen particular tanto en una entrada en RefPicList[ 0 ] como en una entrada en RefPicList[ 1 ]. También es posible que se haga referencia a una imagen particular por más de una entrada en RefPicList[ 0 ] o por más de una entrada en RefPicList[ 1 ]. Las entradas activas en RefPicList[ 0 ] y las entradas activas en RefPicList[ 1 ] se refieren colectivamente a todas las imágenes de referencia que se usarán para la interpredicción de la imagen actual y una o más imágenes que siguen a la imagen actual en el orden de decodificación. Las entradas inactivas en RefPicList[ 0 ] y las entradas inactivas en RefPicList[ 1 ] se refieren colectivamente a todas las imágenes de referencia que no se usarán para la interpredicción de la imagen actual pero se usarán en la interpredicción para una o más imágenes que siguen a la imagen actual en el orden de decodificación. Puede haber una o más entradas en RefPicList[ 0 ] o RefPicList[ 1 ] que sean iguales a "ninguna imagen de referencia" porque las imágenes correspondientes no están presentes en el DPB. Cada entrada inactiva en RefPicList[ 0 ] o RefPicList[ 0 ] que es igual a "ninguna imagen de referencia" debe ignorarse. Se debe inferir una pérdida de imagen no intencional para cada entrada activa en RefPicList[ 0 ] o RefPicList[ 1 ] que es igual a "ninguna imagen de referencia".

Es un requisito de conformidad del flujo de bits que se apliquen las siguientes restricciones: para cada i igual a 0 o 1, NumEntriesInList[ i ][ RplsIdx[ i ] ] no será menor que NumRefIdxActive[ i ]. La imagen a la que hace referencia cada entrada activa en RefPicListf 0 ] o RefPicList[ 1 ] estará presente en el DPB y tendrá TemporalId menor o igual que la de la imagen actual. Opcionalmente, se puede especificar además la siguiente restricción: el índice de entrada de cualquier entrada inactiva en RefPicList[ 0 ] o RefPicList[ 1 ] no se usará como índice de referencia para la decodificación de la imagen actual. Opcionalmente, se puede especificar además la siguiente restricción: una entrada inactiva en RefPicList[ 0 ] o RefPicList[ 1 ] no se referirá a la misma imagen que cualquier otra entrada en RefPicList[ 0 ] o RefPicList[ 1 ]. Una entrada STRP en RefPicList[ 0 ] o RefPicList[ 1 ] de un segmento de una imagen y una entrada LTRP en RefPicList[ 0 ] o RefPicList[ 1 ] del mismo segmento o de un segmento diferente de la misma imagen no se referirán a la misma imagen. No se hará referencia a la propia imagen actual por ninguna entrada en RefPicList[ 0 ] o RefPicList[ 1 ]. No habrá ninguna entrada LTRP en RefPicList[ 0 ] o RefPicList[ 1 ] para la que la diferencia entre el PicOrderCntVal de la imagen actual y el PicOrderCntVal de la imagen a la que se refiere la entrada sea mayor o igual a 224. Sea setOfRefPics el conjunto de imágenes únicas a las que hacen referencia todas las entradas en RefPicList[ 0 ] y todas las entradas en RefPicList[ 1 ]. El número de imágenes en setOfRefPics será menor o igual que sps_max_dec_pic_buffering_minus1 y setOfRefPics será el mismo para todos los segmentos de una imagen.

Proceso de decodificación para el marcado de imágenes de referencia.

Este proceso se invoca una vez por imagen, después de la decodificación de una cabecera de segmento y del proceso de decodificación para la construcción de la lista de imágenes de referencia para el segmento, pero antes de la decodificación de los datos del segmento. Este proceso da como resultado que una o más imágenes de referencia en el DPB se marquen como "no usadas como referencia" o "usadas como referencia a largo plazo". Una imagen decodificada en el DPB puede marcarse como "no usada como referencia", "usada como referencia a corto plazo" o "usada como referencia a largo plazo", pero solo una de estas tres en un momento dado durante el funcionamiento del proceso de decodificación. Asignar una de estas marcas a una imagen elimina implícitamente otra de estas marcas cuando proceda. Cuando se hace referencia a una imagen como "usada como referencia", esto se refiere colectivamente a que la imagen se marca como "usada como referencia a corto plazo" o "usada como referencia a largo plazo" (pero no ambas). Cuando la imagen actual es una imagen IRAp , todas las imágenes de referencia actualmente en el DPB (si las hay) se marcan como "no usadas como referencia". Los STRP se identifican por sus valores PicOrderCntVal. Los LTRP se identifican por los LSB de Log2( MaxLtPicOrderCntLsb ) de sus valores PicOrderCntVal. Se aplica lo siguiente: para cada entrada LTRP en RefPicList[ 0 ] o RefPicList[ 1 ], cuando la imagen referida es un STRP, la imagen se marca como "usada como referencia a largo plazo". Cada imagen de referencia en el DPB a la que no se hace referencia en ninguna entrada de RefPicList[ 0 ] o RefPicList[ 1 ] está marcada como "no usada como referencia".

Se proporciona una descripción detallada de la segunda realización de la descripción. Esta sección documenta una segunda realización de la descripción como se describió anteriormente. La descripción es relativa al último WD de VVC. En esta realización, un conjunto de estructuras de listas de imágenes de referencia se señalizan en el SPS, compartido por la lista 0 de imágenes de referencia y la lista 1 de imágenes de referencia.

Sintaxis RBSP del conjunto de parámetros de secuencia

Sintaxis RBSP del conjunto de parámetros de imagen.

Sintaxis de cabecera de segmento.

Sintaxis de la estructura de lista de imágenes de referencia.

ref_pic_list_struct( rplsIdx, ltrpFlag ) {Descriptor

Se analiza la semántica de la cabecera de la unidad NAL.

Semántica RBSP del conjunto de parámetros de secuencia.

Un log2_max_pic_order_cnt_lsb_minus4 especifica el valor de la variable MaxPicOrderCntLsb que se usa en el proceso de decodificación para el recuento de orden de imagen de la siguiente manera: MaxPicOrderCntLsb = 2 ( log2_max_pic_order_cnt_lsb_minus4 4 ). El valor de log2_max_pic_order_cnt_lsb_minus4 estará en el intervalo de 0 a 12, ambos inclusive. sps_max_dec_pic_buffering_minus1 más 1 especifica el tamaño máximo requerido del búfer de imágenes decodificadas para la CVS en unidades de búferes de almacenamiento de imágenes. El valor de sps_max_dec_pic_buffering_minus1 estará en el intervalo de 0 a MaxDpbSize - 1, ambos inclusive, donde MaxDpbSize es como se especifica en otro lugar. num_ref_pic_lists_in_sps especifica el número de estructuras de sintaxis ref_pic_list_struct( rplsIdx, ltrpFlag ) incluidas en el s Ps . El valor de num_ref_pic_lists_in_sps estará en el intervalo de 0 a 128, ambos inclusive. Un decodificador debe asignar memoria para un número total de estructuras de sintaxis num_short_term_ref_pic_sets 2 ref_pic_list_struct( rplsIdx, ltrpFlag ) ya que hay dos estructuras de sintaxis ref_pic_list_struct( rplsIdx, ltrpFlag) señalizadas directamente en las cabeceras de segmentos de una imagen actual. long_term_ref_pics_flag igual a 0 especifica que no se usa LTRP para interpredicción de ninguna imagen codificada en la CVS. long_term_ref_pics_flag igual a 1 especifica que se usarán LTRP para la interpredicción de una o más imágenes codificadas en la CVS. additional_lt_poc_lsb especifica el valor de la variable MaxLtPicOrderCntLsb que se usa en el proceso de decodificación para las listas de imágenes de referencia de la siguiente manera: MaxLtPicOrderCntLsb = 2( log2_max_pic_order_cnt_lsb_minus4 4 additional_lt_poc_lsb )). El valor de additional_lt_poc_lsb estará en el intervalo de 0 a 32 - log2_max_pic_order_cnt_lsb_minus4 - 4, ambos inclusive. Cuando no está presente, el valor de additional_lt_poc_lsb se infiere que es igual a 0.

Se analiza la semántica RBSP del conjunto de parámetros de imagen.

Semántica de cabecera de segmento.

Cuando está presente, el valor de cada uno de los elementos de sintaxis de cabecera de segmento slice_pic_parameter_set_id y slice_pic_order_cnt_lsb será el mismo en todas las cabeceras de segmentos de una imagen codificada. slice_type especifica el tipo de codificación del segmento según la Tabla 7-3.

Tabla 7-3 - Asociación de nombres a slice_type

Cuando nal_unit_type es igual a IRAP_NUT, es decir, la imagen es una imagen IRAP, slice_type será igual a 2.... slice_pic_order_cnt_lsb especifica el módulo de recuento de orden de imagen MaxPicOrderCntLsb para la imagen actual. La longitud del elemento de sintaxis slice_pic_order_cnt_lsb es log2_max_pic_order_cnt_lsb_minus4 4 bits. El valor de slice_pic_order_cnt_lsb estará en el intervalo de 0 a MaxPicOrderCntLsb - 1, ambos inclusive. Cuando slice_pic_order_cnt_lsb no esté presente, se infiere que slice_pic_order_cnt_lsb es igual a 0. ref_pic_list sps_flag[ i ] igual a 1 especifica que la lista de imágenes de referencia i de la imagen actual se deriva basándose en las estructuras de sintaxis ref_pic_list_struct( listIdx, rplsIdx, ltrpFlag ) en el SPS activo. ref_pic_list_sps_flag[ i ] igual a 0 especifica que la lista de imágenes de referencia i de la imagen actual se deriva basándose en la estructura de sintaxis ref_pic_list_struct( rplsIdx, ltrpFlag ) que se incluye directamente en las cabeceras de segmentos de la imagen actual. Cuando num_ref_pic_lists_in_sps es igual a 0, el valor de ref_pic_list_sps_flag[ i ] será igual a 0. ref_pic_list_idx[ i ] especifica el índice, en la lista de la estructura de sintaxis ref_pic_list struct( rplsIdx, ltrpFlag ) incluida en el SPS activo, de la estructura de sintaxis ref_pic_list_struct( rplsIdx, ltrpFlag ) que se usa para derivación de la lista de imágenes de referencia i de la imagen actual. El elemento de sintaxis ref_pic_list_idx[ i ] se representa por Ceil( Log2( num_ref_pic_lists_in_sps ) ) bits. Cuando no está presente, el valor de ref_pic_list_idx[ i ] se infiere que es igual a 0. El valor de ref_pic_list_idx[ i ] estará en el intervalo de 0 a num_ref_piclists_in_sps - 1, ambos inclusive. num_ref_idx_active_override_flag igual a 1 especifica que el elemento de sintaxis num_ref_idx_active_minus1[ 0 ] está presente para los segmentos P y B y que el elemento de sintaxis num_ref_idx_active_minus1[ 1 ] está presente para los segmentos B. num_ref_idx_active_override_flag igual a 0 especifica que los elementos de sintaxis num_ref_idx_active_minus1 [ 0 ] y num_ref_idx_active_minus1[ 1 ] no están presentes.

num_ref_idx_active _minus1[ i], cuando está presente, especifica el valor de la variable NumRefIdxActive[ i ] de la siguiente manera: NumRefIdxActive[ i ] = num_ref_idx_active_minus1[ i ] 1. El valor de num_ref_idx_active_minus1[ i ] estará en el intervalo 0 a 14, ambos inclusive. El valor de NumRefIdxActive[ i ] - 1 especifica el índice de referencia máximo para la lista de imágenes de referencia i que se usará para decodificar el segmento. Cuando el valor de NumRefIdxActive[ i ] es igual a 0, no se usará ningún índice de referencia para la lista de imágenes de referencia i para decodificar el segmento. Para i igual a 0 o 1, cuando el segmento actual es un segmento B y num_ref_idx_active_override_flag es igual a 0, se infiere que NumRefIdxActive[ i ] es igual a num_ref_idx_default_active_minus1[ i ] 1. Cuando el segmento actual es un segmento P y num_ref_idx_active_override_flag es igual a 0, se infiere que NumRefIdxActive[ 0 ] es igual a num_ref_idx_default_active_minus1[ 0 ] 1. Cuando el segmento actual es un segmento P, se infiere que NumRefIdxActive[ 1 ] es igual a 0. Cuando el segmento actual es un segmento I, tanto NumRefIdxActive[ 0 ] como NumRefIdxActive[ 1 ] se infieren que son iguales a 0.

Semántica de estructura de lista de imágenes de referencia.

La estructura de sintaxis ref_pic_list_struct( rplsIdx, ltrpFlag) estará presente en un SPS o en una cabecera de segmento. Dependiendo de si la estructura de sintaxis está incluida en una cabecera de segmento o en un SPS, se aplica lo siguiente: si está presente en una cabecera de segmento, la estructura de sintaxis ref_pic_list_struct( rplsIdx, ltrpFlag ) especifica una lista de imágenes de referencia de la imagen actual (la imagen que contiene el segmento). De lo contrario (presente en un SPS), la estructura de sintaxis ref_pic_list_struct( rplsIdx, ltrpFlag ) especifica un candidato para la lista de imágenes de referencia, y el término "la imagen actual" en la semántica especificada en el resto de esta sección se refiere a cada imagen que 1) tiene uno o más segmentos que contienen ref_pic_list_idx[ i ] igual a un índice en la lista de las estructuras de sintaxis ref_pic_list_struct( rplsIdx, ltrpFlag ) incluidas en el SPS, y 2) está en una CVS que tiene el SPS como el SPS activo. num_strp_entries[ rplsIdx ] especifica el número de entradas STRP en la estructura de sintaxis ref_pic_list_struct( rplsIdx, ltrpFlag ). num_ltrp_entries[ rplsIdx ] especifica el número de entradas LTRP en la estructura de sintaxis ef_pic_list_struct( rplsIdx, ltrpFlag ). Cuando no está presente, el valor de num_ltrp_entries[ rplsIdx ] se infiere que es igual a 0.

La variable NumEntriesInList[ rplsIdx ] se deriva de la siguiente manera: NumEntriesInList[ rplsIdx ] = num_strp_entries[ rplsIdx ] num_ltrp_entries[ rplsIdx ]. El valor de NumEntriesInList[ rplsIdx ] estará en el intervalo de 0 a sps_max_dec_pic_buffering_minus1, ambos inclusive. lt_ref_pic_flag[ rplsIdx ][ i ] igual a 1 especifica que la i-ésima entrada en la sintaxis ref_pic_list_struct( rplsIdx, ltrpFlag ) es una entrada LTRP. lt_ref_pic_flag[ rplsIdx ][ i ] igual a 0 especifica que la i-ésima entrada en la estructura de sintaxis ref_pic_list_struct( rplsIdx, ltrpFlag ) es una entrada STRP. Cuando no está presente, se infiere que el valor de lt_ref_pic_flag[ rplsIdx ][ i ] es igual a 0. Es un requisito de conformidad del flujo de bits que la suma de lt_ref_pic_flag[ rplsIdx ][ i ] para todos los valores de i en el intervalo de 0 a NumEntriesInList[ rplsIdx ] - 1, ambos inclusive, sea igual a num_ltrp_entries[ rplsIdx ]. delta_poc_st[ rplsIdx ][ i ], cuando la i-ésima entrada es la primera entrada STRP en la estructura de sintaxis ref_pic_list_struct( rplsIdx, ltrpFlag ), especifica la diferencia entre los valores de recuento de orden de imagen la imagen actual y la imagen a la que hace referencia la i-ésima entrada o, cuando la i-ésima entrada es una entrada STRP pero no la primera entrada STRP en la estructura de sintaxis ref_pic_list_struct( rplsIdx, ltrpFlag ), especifica la diferencia entre los valores de recuento de orden de imagen de las imágenes a las que hace referencia la i-ésima entrada y la entrada STRP anterior en la estructura de sintaxis ref_pic_list_struct( rplsldx, ItrpFlag ). El valor de delta_poc_st[ rplsldx ][ i ] estará en el intervalo de 0 a 215 - 1, ambos inclusive. poc_lsb_lt[ rplsldx ][ i ] especifica el valor del módulo de recuento de orden de imagen MaxLtPicOrderCntLsb de la imagen a la que se refiere la i-ésima entrada en la estructura de sintaxis ref_pic_list struct( rplsIdx, ltrpFlag ). La longitud del elemento de sintaxis poc_lsb_lt[ rplsIdx ][ i ] es Log2( MaxLtPicOrderCntLsb ) bits.

Se aplica el proceso de decodificación general especificado como parte de la descripción detallada de la primera realización de esta descripción. Se describe el proceso de decodificación de la unidad NAL. Se aplica el proceso de decodificación de la unidad NAL especificado como parte de la descripción detallada de la primera realización de esta descripción.

Se proporciona el proceso de decodificación de segmentos.

Proceso de decodificación para el recuento de orden de imagen.

Se aplica el proceso de decodificación para recuento de orden de imagen especificado como parte de la descripción detallada de la primera realización de esta descripción.

Proceso de decodificación para construcción de listas de imágenes de referencia.

Este proceso se invoca al principio del proceso de decodificación para cada segmento de una imagen que no es IRAP. Las imágenes de referencia se abordan a través de índices de referencia. Un índice de referencia es un índice en una lista de imágenes de referencia. Cuando se decodifica un segmento I, no se usa ninguna lista de imágenes de referencia en la decodificación de los datos del segmento. Cuando se decodifica un segmento P, solo se usa la lista 0 de imágenes de referencia (es decir, RefPicList[ 0 ]) en la decodificación de los datos del segmento. Cuando se decodifica un segmento B, tanto la lista 0 de imágenes de referencia como la lista 1 de imágenes de referencia (es decir, RefPicList[ 1 ]) se usan en la decodificación de los datos del segmento. Al comienzo del proceso de decodificación para cada segmento de una imagen no IRAP, se derivan las listas de imágenes de referencia RefPicList[ 0 ] y RefPicList[ 1 ]. Las listas de imágenes de referencia se usan en el marcado de imágenes de referencia o en la decodificación de los datos del segmento. Para un segmento I de una imagen no IRAP que no es el primer segmento de la imagen, RefPicList[ 0 ] y RefPicList[ 1 ] se derivarán para verificar la conformidad del flujo de bits, pero su derivación no es necesaria para la decodificación de la imagen o las imágenes actuales que siguen a la imagen actual en el orden de decodificación. Para un segmento P que no es el primer segmento de una imagen, RefPicList[ 1 ] se derivará para verificar la conformidad del flujo de bits, pero su derivación no es necesaria para la decodificación de la imagen o las imágenes actuales que siguen a la imagen actual en el orden de decodificación.

Las listas de imágenes de referencia RefPicList[ 0 ] y RefPicList[ 1 ] se construyen de la siguiente manera:

for( i = 0; i < 2: i++) {

if( ref_pic_list_sps ílag[ i ] )

Rplsld.\| i | = ref_pic_list_idx| i |

else

Rplsld.\[ i | = num_ref_pic_lists_in_sps

for( j = 0, pocBasc = PicOrdcrCntVaL j < NumEntricslnList| Rplsld.\| i 11: j++) {

if( !k_rer_p¡c_flag[ Rplsldx| i | |( j | ) {

RcfPicPocL¡st| i ][ j 1 = pocBasc - dclta_poc_st[ Rplsld.\[ ¡ ] ]| j ]

if( hay una imagen de referencia picA en el DPB con PicOrderCntVal igual a RefPicPocList[ i ][ j ]) RefPicListl i II j 1 = picA

clsc

RefPicListl i | | j | = “ninguna imagen de referencia”

pocBasc = RcfPicPocListl i || j |

} clsc {

if( hay una referencia picA en el DPB con PicOrderCntVal & ( MaxLtPicOrderCntLsb - 1)

igual a p o c js b j t f Rplsldxf i ] ][ j ] )

RefPicListl i J[ j J = picA

else

RefPicListl i 1 [ j | = “ninguna imagen de referencia”

1

Para cada i igual a 0 o 1, se aplica lo siguiente: las primeras entradas NumRefIdxActive[ i ] en RefPicList[ i ] se denominan entradas activas en RefPicList[ i ], y las demás entradas en RefPicList[ i ] se denominan entradas inactivas en RefPicList[ i ]. Cada entrada en RefPicList[ i ][ j ] para j en el intervalo de 0 a NumEntriesInList[ RplsIdx[ i ] ] - 1, ambos inclusive, se denomina entrada St RP si lt_ref_pic_flag[ i ][ RplsIdx[ i ] ][ j ] es igual a 0, y entrada LTRP de lo contrario. Es posible que se haga referencia a una imagen particular tanto en una entrada en RefPicList[ 0 ] como en una entrada en RefPicList[ 1 ]. También es posible que se haga referencia a una imagen particular por más de una entrada en RefPicList[ 0 ] o por más de una entrada en RefPicList[ 1 ]. Las entradas activas en RefPicList[ 0 ] y las entradas activas en RefPicList[ 1 ] se refieren colectivamente a todas las imágenes de referencia que se usarán para la interpredicción de la imagen actual y una o más imágenes que siguen a la imagen actual en el orden de decodificación. Las entradas inactivas en RefPicList[ 0 ] y las entradas inactivas en RefPicList[ 1 ] se refieren colectivamente a todas las imágenes de referencia que no se usarán para la interpredicción de la imagen actual pero se usarán en la interpredicción para una o más imágenes que siguen a la imagen actual en el orden de decodificación. Puede haber una o más entradas en RefPicList[ 0 ] o RefPicList[ 1 ] que sean iguales a "ninguna imagen de referencia" porque las imágenes correspondientes no están presentes en el DPB. Cada entrada inactiva en RefPicList[ 0 ] o RefPicList[ 1 ] que es igual a "ninguna imagen de referencia" debe ignorarse. Se debe inferir una pérdida de imagen no intencional para cada entrada activa en RefPicList[ 0 ] o RefPicList[ 1 ] que es igual a "ninguna imagen de referencia".

Es un requisito de conformidad del flujo de bits que se apliquen las siguientes restricciones: para cada i igual a 0 o 1, NumEntriesInList[ RplsIdx[ i ] ] no será menor que NumRefIdxActive[ i ]. La imagen a la que hace referencia cada entrada activa en RefPicList[ 0 ] o RefPicList[ 1 ] estará presente en el DPB y tendrá TemporalId menor o igual que la de la imagen actual. Opcionalmente, se puede especificar además la siguiente restricción: el índice de entrada de cualquier entrada inactiva en RefPicList[ 0 ] o RefPicList[ 1 ] no se usará como índice de referencia para la decodificación de la imagen actual. Opcionalmente, se puede especificar además la siguiente restricción: una entrada inactiva en RefPicList[ 0 ] o RefPicList[ 1 ] no se referirá a la misma imagen que cualquier otra entrada en RefPicList[ 0 ] o RefPicList[ 1 ]. Una entrada STRP en RefPicList[ 0 ] o RefPicList[ 1 ] de un segmento de una imagen y una entrada LTRP en RefPicList[ 0 ] o RefPicList[ 1 ] del mismo segmento o de un segmento diferente de la misma imagen no se referirán a la misma imagen. No se hará referencia a la propia imagen actual por ninguna entrada en RefPicList[ 0 ] o RefPicList[ 1 ]. No habrá ninguna entrada LTRP en RefPicList[ 0 ] o RefPicList[ 1 ] para la que la diferencia entre el PicOrderCntVal de la imagen actual y el PicOrderCntVal de la imagen a la que se refiere la entrada sea mayor o igual a 224. Sea setOfRefPics el conjunto de imágenes únicas a las que hacen referencia todas las entradas en RefPicList[ 0 ] y todas las entradas en RefPicList[ 1 ]. El número de imágenes en setOfRefPics será menor o igual que sps_max_dec_pic_buffering_minus1 y setOfRefPics será el mismo para todos los segmentos de una imagen.

Se analiza el proceso de decodificación para el marcado de imágenes de referencia.

Este proceso se invoca una vez por imagen, después de la decodificación de una cabecera de segmento y del proceso de decodificación para la construcción de la lista de imágenes de referencia para el segmento, pero antes de la decodificación de los datos del segmento. Este proceso da como resultado que una o más imágenes de referencia en el DPB se marquen como "no usadas como referencia" o "usadas como referencia a largo plazo". Una imagen decodificada en el DPB puede marcarse como "no usada como referencia", "usada como referencia a corto plazo" o "usada como referencia a largo plazo", pero solo una de estas tres en un momento dado durante el funcionamiento del proceso de decodificación. Asignar una de estas marcas a una imagen elimina implícitamente otra de estas marcas cuando proceda. Cuando se hace referencia a una imagen como "usada como referencia", esto se refiere colectivamente a que la imagen se marca como "usada como referencia a corto plazo" o "usada como referencia a largo plazo" (pero no ambas). Cuando la imagen actual es una imagen IRAP, todas las imágenes de referencia actualmente en el DPB (si las hay) se marcan como "no usadas como referencia". Los STRP se identifican por sus valores PicOrderCntVal. Los LTRP se identifican por los LSB de Log2( MaxLtPicOrderCntLsb ) de sus valores PicOrderCntVal.

Se aplica lo siguiente: para cada entrada LTRP en RefPicList[ 0 ] o RefPicList[ 1 ], cuando la imagen referida es un STRP, la imagen se marca como "usada como referencia a largo plazo". Cada imagen de referencia en el DPB a la que no se hace referencia en ninguna entrada de RefPicList[ 0 ] o RefPicList[ 1 ] está marcada como "no usada como referencia".

La FIG. 5 es una realización de un método 500 de decodificación de un flujo de bits de vídeo codificado implementado por un decodificador de vídeo (por ejemplo, el decodificador 30 de vídeo). El método 500 se realizará después de que el flujo de bits decodificado haya sido recibido directa o indirectamente desde un codificador de vídeo (por ejemplo, el codificador 20 de vídeo). El método 500 se realizará para mejorar el proceso de decodificación (por ejemplo, hacer que el proceso de decodificación sea más eficiente, más rápido, etc., que los procesos de decodificación convencionales) porque el número de entradas activas en la lista de imágenes de referencia se establece igual al número de entradas en la estructura de lista de imágenes de referencia cuando el número predeterminado de entradas activas en la lista de imágenes de referencia es mayor que el número de entradas en la estructura de lista de imágenes de referencia. Esto contrasta con la manera en que se gestiona la lista de imágenes de referencia en HEVC y AVC. Por lo tanto, como cuestión práctica, se mejora el rendimiento de un códec, lo que conduce a una mejor experiencia de usuario.

En el bloque 502, se obtiene una estructura de lista de imágenes de referencia para un segmento actual representado en el flujo de bits de vídeo codificado. En una realización, la estructura de lista de imágenes de referencia contiene un número de entradas. En una realización, un orden de entradas en la estructura de lista de imágenes de referencia es el mismo que un orden de imágenes de referencia correspondientes en la lista de imágenes de referencia. En una realización, el orden es de cero a un valor indicado. En una realización, el valor indicado es de cero a un valor indicado por sps_max_dec_pic_buffering_minus1.

En el bloque 504, se obtiene un número predeterminado de entradas activas en una lista de imágenes de referencia para el segmento actual. En una realización, la lista de imágenes de referencia se designa como RefPictList[0] o RefPictList[1].

En el bloque 506, se construye una lista de imágenes de referencia para el segmento actual. En una realización, la lista de imágenes de referencia contiene un número de entradas activas y número de entradas inactivas.

En el bloque 508, el número de entradas activas en la lista de imágenes de referencia se establece igual al número de entradas en la estructura de lista de imágenes de referencia cuando el número predeterminado de entradas activas en la lista de imágenes de referencia es mayor que el número de entradas en la estructura de lista de imágenes de referencia.

En el bloque 510, se obtiene al menos un bloque reconstruido del segmento actual basándose en al menos una entrada activa de la lista de imágenes de referencia. En una realización, al menos un bloque reconstruido se usa para generar una imagen visualizada en una pantalla de un dispositivo electrónico.

En una realización, la lista de imágenes de referencia comprende una lista de imágenes de referencia usadas para interpredicción. En una realización, la interpredicción es para un segmento P o para un segmento B.

En una realización, la cabecera de segmento contiene un indicador de conjunto de parámetros de secuencia (SPS) de lista de imágenes de referencia designado ref_pic_list_sps_flag[ i ]. Cuando este indicador es igual a 1, la i-ésima lista de imágenes de referencia, es decir, RefPictList[ i ], no se señaliza directamente en la cabecera de segmento, sino que se hace referencia desde el SPS. Cuando este indicador es igual a 0, la iésima lista de imágenes de referencia, es decir, RefPictList[ i ], se señaliza directamente en la cabecera de segmento, no se referencia desde el SPS. En una realización, la cabecera de segmento contiene un indicador de sustitución activo del índice de referencia numérico designado por num_ref_idx_active_override_flag. Cuando este indicador es igual a 1, el número de entradas activas en cada lista de imágenes de referencia es el valor predeterminado señalado en el PPS. Cuando este indicador es igual a 0, el número de entradas activas en cada lista de imágenes de referencia está señalizado explícitamente en la cabecera de segmento.

En una realización, la lista de imágenes de referencia se designa como RefPictList[0] o RefPictList[1], y un orden de entradas en la estructura de lista de imágenes de referencia es el mismo que un orden de imágenes de referencia correspondientes en la lista de imágenes de referencia.

Se proporciona un resumen de realizaciones alternativas basándose en la primera y la segunda realizaciones.

Esta sección proporciona breves resúmenes de otras realizaciones alternativas de la descripción. Los resúmenes son relativos a la descripción de la primera realización. Sin embargo, el concepto básico de la descripción para las siguientes realizaciones alternativas también es aplicable para su implementación además de la descripción para la segunda realización. Tal implementación está en el mismo espíritu de cómo los aspectos se implementan sobre la primera realización.

Semántica del POC delta de las entradas de imágenes de referencia a corto plazo.

En una realización alternativa de la descripción, la semántica del elemento de sintaxis que especifica el POC delta de la i-ésima entrada en una estructura de lista de imágenes de referencia ref_pic_list_struct( ) se define como la diferencia de POC entre la imagen actual y la imagen de referencia asociada con esa i-ésima entrada. Parte de la descripción usada en la presente memoria es relativa al presente borrador estándar (por ejemplo, el borrador de trabajo de VVC) donde solo se muestra o describe el delta. El texto eliminado se indica tachándolo y cualquier texto añadido se resalta.

La semántica de delta_poc_st[ listIdx ][ rplsIdx ][ i ] se define de la siguiente manera: delta_poc_st[ listIdx ][ rplsIdx ][ i ] especifica la diferencia entre los valores de recuento de orden de imagen de la imagen actual y la imagen a la que se hace referencia en la i-ésima entrada. El valor de delta_poc_st[ listIdx ][ rplsIdx ][ i ] estará en el intervalo de -215 a 215 - 1, ambos inclusive.

Es necesario actualizar la ecuación del proceso de construcción de la lista de imágenes de referencia. Las listas de imágenes de referencia RefPicList[ 0 ] y RefPicList[ 1 ] se construyen de la siguiente manera:

for( i = 0; i < 2; i++) {

if( rcf_pic_list_sps_ílag[ i ] )

Rplsld.\| i | = ref_pic_list_id.\| i |

clsc

Rplsldx| i | = nuni refjjic lists in sps| i |

for(j= (X ; j < NumEntricsInList| i ][ Rplsldx| i ] ];j++){

if ( !lt_rcf_pic_flag| i |] Rplsldx| i | || j | ) {

RcíPicPocListl i || j 1 = PicOrderCntVal - delta_poc_st| i ][ Rplsldx| i | ]| j ]

i f (hay una imagen de referencia picA en el DPB con PicOrderCntVal igual a RefPicPocListí i ][ i ]) RcfPicList[ i || j | = picA

clsc

RefPicListl i || j | = “ninguna imagen de referencia”

} else {

igual a poc lsb_lt| i || Rplsldx[ i ] |[ j | )

RefPicListl i |[ j ] = picA

clsc

RefPicListl i || j | = “ninguna imagen de referencia”

i

}

Señalización de entradas de imágenes de referencia a largo plazo.

En una realización alternativa de la descripción, las entradas de imagen de referencia a largo plazo no se señalizan en la misma estructura de lista de imágenes de referencia que contiene entradas de imagen de referencia a corto plazo. Las entradas de imagen de referencia a largo plazo se señalizan en una estructura separada y para cada entrada en la estructura hay un elemento de sintaxis que describe la posición prevista de la entrada de imagen de referencia a largo plazo para derivación del índice de entrada correspondiente en la lista de imágenes de referencia final.

Sintaxis RBSP del conjunto de parámetros de secuencia.

Sintaxis de cabecera de segmento.

Sintaxis de la estructura de lista de imágenes de referencia.

Sintaxis de la estructura de lista de imágenes de referencia a largo plazo

Semántica RBSP del conjunto de parámetros de secuencia.

Un num_ref_pic_lists_lt_in_sps especifica el número de estructuras de sintaxis ref_pic_list_lt_struct( ltRplsIdx ) incluidas en el SPS. El valor de num_ref_pic_lists_lt_in_sps estará en el intervalo de 0 a 64, ambos inclusive. Cuando no está presente, el valor de num_ref_pic_lists_lt_in_sps se infiere que es igual a 0.

Semántica de cabecera de segmento.

Una ref_pic_list_lt_idx[ i ] especifica el índice en la lista de las estructuras de sintaxis ref_pic_list_lt_struct( ltRplsIdx ) incluidas en el SPS activo que se usa para derivación de la lista de imágenes de referencia i de la imagen actual. El elemento de sintaxis ref_pic_list_lt_idx[ i ] se representa por Ceil( Log2( num_ref_pic_lists_lt_in_sps ) ) bits. El valor de ref_pic_list_lt_idx estará en el intervalo de 0 y num_ref_pic_lists_lt_in_sps - 1, ambos inclusive.

Semántica de estructura de lista de imágenes de referencia.

La estructura de sintaxis ref_pic_list_struct( listIdx, rplsIdx ) estará presente en un SPS o en una cabecera de segmento. Dependiendo de si la estructura de sintaxis está incluida en una cabecera de segmento o en un SPS, se aplica lo siguiente: si está presente en una cabecera de segmento, la estructura de sintaxis ref_pic_list_struct( listIdx, rplsIdx ) especifica la lista de imágenes de referencia a corto plazo listIdx de la imagen actual (la imagen que contiene el segmento). De lo contrario (presente en un SPS), la estructura de sintaxis ref_pic_list_struct( listIdx, rplsIdx ) especifica un candidato para la lista de imágenes de referencia a corto plazo listIdx, y el término "la imagen actual" en la semántica especificada en el resto de esta sección se refiere a cada imagen que 1) tiene uno o más segmentos que contienen ref_pic_list_idx[ listIdx ] igual a un índice en la lista de las estructuras de sintaxis ref_pic_list_struct( listIdx, rplsIdx ) incluidas en el SPS, y 2) está en una CVS que tiene el SPS como el SPS activo. num_strp_entries[ listIdx ][ rplsIdx ] especifica el número de entradas STRP en la estructura de sintaxis ref_pic_list_struct( listIdx, rplsIdx ).

delta_poc_st[ listIdx ][ rplsIdx ][i], cuando la i-ésima entrada es la primera entrada STRP en la estructura de sintaxis ref_pic_list_struct( listIdx, rplsIdx ), especifica la diferencia entre los valores de recuento de orden de imagen de la imagen actual y la imagen a la que hace referencia la i-ésima entrada, o, cuando la i-ésima entrada es una entrada STRP pero no la primera entrada STRP en la estructura de sintaxis ref_pic_list_struct( listIdx, rplsIdx), especifica la diferencia entre los valores de recuento de orden de imagen de las imágenes a las que hace referencia la i-ésima entrada y la entrada STRP anterior en la estructura de sintaxis de ref_pic_list_struct( listIdx, rplsIdx ). El valor de delta_poc_st[ listIdx ][ rplsIdx ][ i ] estará en el intervalo de -215 a 215 - 1, ambos inclusive.

Semántica de estructura de lista de imágenes de referencia a largo plazo.

La estructura de sintaxis ref_pic_list_lt_struct( ltRplsIdx ) estará presente en un SPS o en una cabecera de segmento. Dependiendo de si la estructura de sintaxis está incluida en una cabecera de segmento o en un SPS, se aplica lo siguiente: si está presente en una cabecera de segmento, la estructura de sintaxis ref_pic_list_lt_struct( ltRplsIdx ) especifica una lista de imágenes de referencia a largo plazo de la imagen actual (la imagen que contiene el segmento). De lo contrario (presente en un SPS), la estructura de sintaxis ref_pic_list_struct( listIdx, rplsIdx ) especifica un candidato para la lista de imágenes de referencia a largo plazo, y el término "la imagen actual" en la semántica especificada en el resto de esta sección se refiere a cada imagen que 1) tiene uno o más segmentos que contienen ref_pic_list_lt_idx[ i ] igual a un índice en la lista de las estructuras de sintaxis ref_pic_list_lt_struct( ltRplsIdx ) incluidas en el SPS, y 2) está en una CVS que tiene el SPS como SPS activo. num_ltrp_entries[ ltRplsIdx ] especifica el número de entradas LTRP en la estructura de sintaxis ref_pic_list_lt_struct( ltRplsIdx ). poc_lsb_lt[ rplsIdx ][ i ] especifica el valor del módulo de recuento de orden de imagen MaxLtPicOrderCntLsb de la imagen a la que hace referencia la i-ésima entrada de la estructura de sintaxis ref_pic_list_lt_struct( rplsIdx ). La longitud del elemento de sintaxis poc_lsb_lt[ rplsIdx ][ i ] es Log2( MaxLtPicOrderCntLsb ) bits. lt_pos_idx[ rplsIdx [i] especifica el índice de la i-ésima entrada en la estructura de sintaxis ref_pic_list_lt_struct( rplsIdx ) en la lista de imágenes de referencia después de la construcción de la lista de imágenes de referencia. La longitud del elemento de sintaxis lt_pos_idx[ rplsIdx ][ i ] es Log2( sps_max_dec_pic_buffering_minus1 1 ) bits. Cuando num_ltrp_entries[ ltRplsIdx ] es mayor que 1, poc_lsb_lt[ rplsIdx ][ i ] y lt_pos idx[ rplsIdx ][ i ] estarán en el orden descendente de los valores lt_pos_idx[ rplsIdx ][ i ].

Se describe el proceso de decodificación.

Este proceso se invoca al principio del proceso de decodificación para cada segmento de una imagen que no es IRAP. Las imágenes de referencia se abordan a través de índices de referencia. Un índice de referencia es un índice en una lista de imágenes de referencia. Cuando se decodifica un segmento I, no se usa ninguna lista de imágenes de referencia en la decodificación de los datos del segmento. Cuando se decodifica un segmento P, solo se usa la lista 0 de imágenes de referencia (es decir, RefPicList[ 0 ]) en la decodificación de los datos del segmento. Cuando se decodifica un segmento B, tanto la lista 0 de imágenes de referencia como la lista 1 de imágenes de referencia (es decir, RefPicList[ 1 ]) se usan en la decodificación de los datos del segmento. Al comienzo del proceso de decodificación para cada segmento de una imagen no IRAP, se derivan las listas de imágenes de referencia RefPicList[ 0 ] y RefPicList[ 1 ]. Las listas de imágenes de referencia se usan en el marcado de imágenes de referencia o en la decodificación de los datos del segmento. Para un segmento I de una imagen no IRAP que no es el primer segmento de la imagen, RefPicList[ 0 ] y RefPicList[ 1 ] se derivarán para verificar la conformidad del flujo de bits, pero su derivación no es necesaria para la decodificación de la imagen o las imágenes actuales que siguen a la imagen actual en el orden de decodificación. Para un segmento P que no es el primer segmento de una imagen, RefPicList[ 1 ] se derivará para verificar la conformidad del flujo de bits, pero su derivación no es necesaria para la decodificación de la imagen o las imágenes actuales que siguen a la imagen actual en el orden de decodificación. Las listas de imágenes de referencia RefPicList[ 0 ] y RefPicList[ 1 ] se construyen de la siguiente manera:

for( i = 0; i < 2; i++) {

if( rcf_pic_list_sps_flag[ i ])

Rplsldx[ i 1 = ref_pic_list_idx| i |

elsc

Rplsld.\[ i ] = nutriré f_pi e l i s ls in sp s [ i |

for(j =0.pocBasc = PicOrderCnt Val: j<NumEntriesInList| i || Rplsldxl i | l:j++){

RcfPicPocList[ i ][ j ] = pocBasc - dclta_poc_st[ i ][ Rplsldxf i ] ][ j ]

if(hay una imagen de referencia picA en el DPB con PicOrderCntVal igual a RefPicPocList[ i ][ j ]) RcfPicList| i ][ j ] = picA

clsc

RefPicListl i || j | = “ninguna imagen de referencia”

pocBasc = RcfPicPocList[ i ][ j ]

>

if( ref_pic_list_lt_sps_flag| i 1)

LtRplsIdx = rcf_pic_list_lt_idx[ i ]

else

LtRplsIdx = nuni_rcf_pic_lists_lt_in_sps| i ]

for( j = 0; j < nuin itrp cntrics[ LtRplsIdx[ i ] ];j++){

if(hay una referencia picA en el DPB con PtcOrderCtuVal & ( MaxLtPicOrdcrC'niLsb - 1 ) { igual a poc_lsb_lt| LtRplsldx| i 11| j ) )

for( k= sps_niax_dcc_pic_buircring_minusl;k >lt_pos_idx[ LtRplsIdx! i] ] [j]; k— )RefPicList[ i || k | = RefPicListl i |( k - 1 ]

} clsc {

for( k = sps_max_dec_pic_buffering_minusL k > ltjxis_idx| LtRplsIdx[ i ] ] | jJ : k— ) RefPicListl i ]| k 1 = RefPicListl i || k - 1 ]

RefPicListl i || lt_pos idx| Rplsldx| i J J l j J J = “ninguna imagen de referencia”

í

>

}

Para cada i igual a 0 o 1, se aplica lo siguiente: las primeras entradas NumRefIdxActive[ i ] en RefPicList[ i ] se denominan entradas activas en RefPicList[ i ], y las demás entradas en RefPicList[ i ] se denominan entradas inactivas en RefPicList[ i ]. Cada entrada en RefPicList[ i ][ j ] para j en el intervalo de 0 a NumEntriesInList[ i ][ RplsIdx[ i ] ] - 1, ambos inclusive, se denomina entrada STRp si lt_ref_pic_flag[ i ][ RplsIdx[ i ] ][ j ] es igual a 0, y entrada LTRP de lo contrario. Es posible que se haga referencia a una imagen particular tanto en una entrada en RefPicList[ 0 ] como en una entrada en RefPicList[ 1 ]. También es posible que se haga referencia a una imagen particular por más de una entrada en RefPicList[ 0 ] o por más de una entrada en RefPicList[ 1 ]. Las entradas activas en RefPicList[ 0 ] y las entradas activas en RefPicList[ 1 ] se refieren colectivamente a todas las imágenes de referencia que se usarán para la interpredicción de la imagen actual y una o más imágenes que siguen a la imagen actual en el orden de decodificación. Las entradas inactivas en RefPicList[ 0 ] y las entradas inactivas en RefPicList[ 1 ] se refieren colectivamente a todas las imágenes de referencia que no se usarán para la interpredicción de la imagen actual pero se usarán en la interpredicción para una o más imágenes que siguen a la imagen actual en el orden de decodificación. Puede haber una o más entradas en RefPicList[ 0 ] o RefPicList[ 1 ] que sean iguales a "ninguna imagen de referencia" porque las imágenes correspondientes no están presentes en el DPB. Cada entrada inactiva en RefPicList[ 0 ] o RefPicList[ 0 ] que es igual a "ninguna imagen de referencia" debe ignorarse. Se debe inferir una pérdida de imagen no intencional para cada entrada activa en RefPicList[ 0 ] o RefPicList[ 1 ] que es igual a "ninguna imagen de referencia".

Es un requisito de conformidad del flujo de bits que se apliquen las siguientes restricciones: para cada i igual a 0 o 1, el número de entradas en RefPicList[ i ] no será menor que NumRefIdxActive[ i ]. La imagen a la que hace referencia cada entrada activa en RefPicList[ 0 ] o RefPicList[ 1 ] estará presente en el DPB y tendrá TemporalId menor o igual que la de la imagen actual. Opcionalmente, se puede especificar además la siguiente restricción: el índice de entrada de cualquier entrada inactiva en RefPicList[ 0 ] o RefPicList[ 1 ] no se usará como índice de referencia para la decodificación de la imagen actual. Opcionalmente, se puede especificar además la siguiente restricción: una entrada inactiva en RefPicList[ 0 ] o RefPicList[ 1 ] no se referirá a la misma imagen que cualquier otra entrada en RefPicList[ 0 ] o RefPicList[ 1 ]. Una entrada STRP en RefPicList[ 0 ] o RefPicList[ 1 ] de un segmento de una imagen y una entrada LTRP en RefPicList[ 0 ] o RefPicList[ 1 ] del mismo segmento o de un segmento diferente de la misma imagen no se referirán a la misma imagen. No se hará referencia a la propia imagen actual por ninguna entrada en RefPicList[ 0 ] o RefPicList[ 1 ]. No habrá ninguna entrada LTRP en RefPicList[ 0 ] o RefPicList[ 1 ] para la que la diferencia entre el PicOrderCntVal de la imagen actual y el PicOrderCntVal de la imagen a la que se refiere la entrada sea mayor o igual a 224. Sea setOfRefPics el conjunto de imágenes únicas a las que hacen referencia todas las entradas en RefPicList[ 0 ] y todas las entradas en RefPicList[ 1 ]. El número de imágenes en setOfRefPics será menor o igual que sps_max_dec_pic_buffering_minus1 y setOfRefPics será el mismo para todos los segmentos de una imagen.

Se analiza la señalización del número de entradas de imágenes de referencia a corto plazo.

En una realización alternativa de la descripción, el elemento de sintaxis que especifica el número de entradas asociadas con imágenes de referencia a corto plazo en una estructura de lista de imágenes de referencia ref_pic_list_struct( ) se define como num_strp_entries_minus1[ listIdx ][ rplsIdx ], en lugar de num_strp_entries[ listIdx ][ rplsIdx ]. El cambio tiene dos efectos para la señalización de la lista de imágenes de referencia: guarda bits para señalizar el número de entradas asociadas con la imagen de referencia a corto plazo en la estructura de lista de imágenes de referencia a medida que el elemento se codifica usando ue(v). Impone implícitamente una restricción de manera que cada lista de imágenes de referencia contendrá al menos una imagen de referencia a corto plazo. Para dar cabida a esta idea se necesitan algunos cambios relativos a la primera realización.

Para la señalización de la lista de imágenes de referencia en las cabeceras de segmentos, solo se señaliza la lista de imágenes de referencia necesaria según el tipo de segmento, es decir, una lista de imágenes de referencia (es decir, la lista 0 de imágenes de referencia) para los segmentos I o P y dos listas de imágenes de referencia (es decir, tanto la lista 0 de imágenes de referencia como la lista 1 de imágenes de referencia) para los segmentos B. La sintaxis de la cabecera de segmento se cambia de la siguiente manera:

Aplicando el cambio anterior en la cabecera de segmento (es decir, la lista 0 de imágenes de referencia para los segmentos I o P; la imagen 0 de referencia y la imagen 1 de referencia para los segmentos B), se evitaría el esquema del problema en el que para un segmento P solo hay una imagen de referencia a corto plazo. Sin embargo, una imagen de referencia a corto plazo duplicada no puede señalizarse en la lista 0 de imágenes de referencia y en la lista 1 de imágenes de referencia, donde la entrada de la lista 1 de imágenes de referencia es una entrada inactiva, ya que el número de entradas activas en la lista 1 de imágenes de referencia tiene que ser igual a 0. La semántica de num_strp_entries_minus1[ listIdx ][ rplsIdx ] se modifica de la siguiente manera: num_strp_entries_minus1[ listIdx ][ rplsIdx ] más 1 especifica el número de entradas STRP en la estructura de sintaxis ref_pic_list_struct( listIdx, rplsIdx, ltrpFlag ). La variable NumEntriesInList[ listIdx ][ rplsIdx ] se deriva de la siguiente manera: NumRefPicEntriesInRpl[ listIdx ][ rplsIdx ] = num_strp_entries_minus1[ listIdx ][ rplsIdx ] 1 num_ltrp_entries[ listIdx ][ rplsIdx ]. El valor de NunRefPicEntries [ listIdx ][ rplsIdx ] estará en el intervalo de 1 a sps_max_dec_pic_buffering_minus1, ambos inclusive.

Permitir inclusión de la imagen actual en las listas de imágenes de referencia.

En una realización alternativa de la descripción, se permite incluir la imagen actual en sus listas de imágenes de referencia. Para soportar esta característica, no se requiere ningún cambio de sintaxis y semántica en relación con las descripciones en la primera y la segunda realizaciones. Sin embargo, las restricciones de conformidad del flujo de bits que se describen en el proceso de decodificación para la construcción de la lista de imágenes de referencia tendrían que modificarse de la siguiente manera: es un requisito de conformidad del flujo de bits que se apliquen las siguientes restricciones: para cada i igual a 0 o 1, NumEntriesInList[ i ][ RplsIdx[ i ] ] no será menor que NumRefIdxActive[ i ]. La imagen a la que hace referencia cada entrada activa en RefPicList[ 0 ] o RefPicList[ 1 ] estará presente en el DPB y tendrá TemporalId menor o igual que la de la imagen actual. Opcionalmente, se puede especificar además la siguiente restricción: el índice de entrada de cualquier entrada inactiva en RefPicList[ 0 ] o RefPicList[ 1 ] no se usará como índice de referencia para la decodificación de la imagen actual. Opcionalmente, se puede especificar además la siguiente restricción: una entrada inactiva en RefPicList[ 0 ] o RefPicList[ 1 ] no se referirá a la misma imagen que cualquier otra entrada en RefPicList[ 0 ] o RefPicList[ 1 ]. Una entrada St RP en RefPicList[ 0 ] o RefPicList[ 1 ] de un segmento de una imagen y una entrada LTRP en RefPicList[ 0 ] o RefPicList[ 1 ] del mismo segmento o de un segmento diferente de la misma imagen no se referirán a la misma imagen. Cuando se hace referencia a la imagen actual por una entrada en RefPicList[ i ], para i igual a 0 o 1, el índice de entrada será menor que NumRefIdxActive[ i ]. No habrá ninguna entrada<l>TRen RefPicList[ 0 ] o RefPicList[ 1 ] para la que la diferencia entre el PicOrderCntVal de la imagen actual y el PicOrderCntVal de la imagen a la que se refiere la entrada sea mayor o igual a 224. Sea setOfRefPics el conjunto de imágenes únicas a las que hacen referencia todas las entradas en RefPicList[ 0 ] y todas las entradas en RefPicList[ 1 ]. Si la imagen actual no se incluye en el setOfRefPics, el número de imágenes en setOfRefPics será menor o igual que sps_max_dec_pic_buffering_minus1; de lo contrario, el número de imágenes en setOfRefPics será menor o igual que sps_max_dec_pic_buffering_minus1 1. El setOfRefPics será el mismo para todos los segmentos de una imagen.

Uso de diferentes bits LSB de POC para entradas LTRP en listas de imágenes de referencia.

En una realización alternativa de la descripción, se permite que el número de bits usados para identificar imágenes de referencia a largo plazo en una estructura de lista de imágenes de referencia sea diferente entre la lista 0 de imágenes de referencia y la lista 1 de imágenes de referencia. Para soportar esta característica, se necesitan los siguientes cambios:

Un adicional_lt_poc_lsb[ i ] especifica el valor de la variable MaxLtPicOrderCntLsb[ i ] que se usa en el proceso de decodificación para la lista de imágenes de referencia listIdx igual a i de la siguiente manera: MaxLtPicOrderCntLsb[ i ] = 2( log2_max_pic_order_cnt_lsb_ minus4 4 additional_lt_poc_lsb[ i ] ). El valor de additional_lt_poc_lsb[ i] estará en el intervalo de 0 a 32 - log2_max_pic_order_cnt_lsb_minus4 - 4, ambos inclusive. Cuando no está presente, el valor de additional_lt_poc_lsb[ i ] se infiere que es igual a 0.

Un poc_lsb_lt[ listIdx ][ rplsIdx ][ i ] especifica el valor del módulo de recuento de orden de imagen MaxLtPicOrderCntLsb[ listIdx ] de la imagen a la que se refiere la i-ésima entrada en la estructura de sintaxis ref_pic_list_struct( listIdx, rplsIdx, ltrpFlag ). La longitud del elemento de sintaxis poc_lsb_lt[ listIdx ][ rplsIdx ][ i ] es Log2( MaxLtPicOrderCntLsb[ listIdx ] ) bits.

for( i = 0; i < 2; i++) {

if( ref_pic_list_sps_flag| i ] )

Rplsldx[ i ] = rcf_pic_list_idx[ i ]

else

Rplsldx[ i ] = num_rcf_pic_lists_in_sps[ i ]

for( j = 0, pocBase = PicOrderCntVal; j < NiunEntricsInList| i || Rplsldx| i | |; j++) {

if( !lt_rcf_pic_flag[ ¡ || Rplsldxl ¡ | ][ j | ) {

RefPicPocList[ i )| j ] = pocBase - delta_poc_st| i || Rplsldxl i | ][ j |

if(hay una imagen de referencia picA en el DPB con PicOrderCntVal igual a RefPicPocList[ i ][ j ]) ReíPicListl i ] [ j | = picA

el se

RcfPicList| i || j | = “ninguna imagen de referencia’’

pocBase = RcfPicPocList[ i J[ j J

} else {

if( hay una referencia picA en el DPB con PicOrderCntVal & ( Ma.\LtPicOrdcrCntLsb| i ] - 1)

igual a poc_lsb_lt| i || Rplsldxl i 11| j | )

ReíPicListl i | | j | = picA

else

ReíPicListl i ][ j ] = “ninguna imagen de referencia”

>

)

Usando el mismo ref_pic_list_sps_flag para las listas 0 y 1 de imágenes de referencia.

En una realización alternativa de la descripción, en lugar de usar dos indicadores para indicar si la lista 0 de imágenes de referencia y la lista 1 de imágenes de referencia se derivan basándose en estructuras de sintaxis ref_pic_list_struct( ) en el SPS activo, se usa un indicador para ambas listas de imágenes de referencia. Esta alternativa restringe que ambas listas de imágenes de referencia se deriven basándose en ref_pic_list_struct( ) en el SPS activo o se deriven basándose en estructuras de sintaxis ref_pic_list_struct( ) que se incluyen directamente en las cabeceras de segmentos de la imagen actual. Para soportar esta característica, se necesitan los siguientes cambios:

slice_header( ) {Descriptor

Una ref_pic list_sps_flag igual a 1 especifica que las listas de imágenes de referencia de la imagen actual se derivan basándose en las estructuras de sintaxis ref_pic_list_struct( listIdx, rplsIdx, ltrpFlag ) en el SPS activo. ref_pic list_sps_flag igual a 0 especifica que las listas de imágenes de referencia de la imagen actual se derivan basándose en las estructuras de sintaxis ref_pic_list_struct( listIdx, rplsIdx, ltrpFlag ) que se incluyen directamente en las cabeceras de segmentos de la imagen actual. Cuando num_ref_pic_lists_in_sps[ 0 ] o num_ref_pic_lists_in_sps[ 1 ] sea igual a 0, el valor de ref_pic_list_sps_flag será igual a 0. pic_lists_in_sps[ 1] es igual a 0, el valor de ref_pic_list_sps_flag será igual a 0.

for( i = 0; i < 2; i++) {

if( ref_pic_list_sps_flag )

Rplsldxf i 1 = rcfj)ic_list_idxl i 1

clsc

Rplsldxf i | = num_rcf_pic_lists_in_sps[ i ]

for( j = 0, pocBase = PicOrderCntVal: j < NumEntriesInListl i |[ Rplsldxf i | ]; j++) {

if( !lt_ref_pic_flag[ i j| Rplsld\| i | || j | ) {

RcfPicPocList[ i |[ j ] = pocBasc - delta_poc_sl[ i || Rplsldxf i ] ][ j ]

ií(hay una imagen de referencia picAen el DPBcon PicOrderCntVal Igual a RefP cPocList[ i ][j ]) RefPicListf i 11 j | = picA

else

RcfPicLislf i II j | = 'ninguna imagen de referencia”

pocBasc = RcfPicPocListf i ](j |

} clsc {

if( hay una referencia picA en el DPB con PicOrderCntVal & ( MaxLtPicOrderCntLsb - 1 )

igual a poc_lsb_lt[ i || Rplsld.\| i ] ]| j | )

ReflPicLisl[ i ][j ] = pie A

else

RcfPicList[ i ]T j ] = “ninguna imagen de referencia”

}

Señalización del Bit Más Significativo (MSB) del POC delta para las entradas de la imagen de referencia a largo plazo.

En una realización alternativa de la descripción, en lugar de usar bits adicionales para representar LSB del POC de entradas de imagen de referencia a largo plazo en ref_piclist_struct( ), el ciclo de MSB del POC se señaliza para diferenciar imágenes de referencia a largo plazo. Cuando se señaliza, la información del ciclo de MSB del POC se señaliza para cada entrada en ref_piclist_struct( ) que se refiere a una imagen de referencia a largo plazo. La estructura de sintaxis ref_piclist_struct( ) no se señaliza en SPS, sino solo en las cabeceras de segmentos. Para soportar esta característica, se necesitan los siguientes cambios:

La estructura de sintaxis ref_pic_list_struct( listIdx, ItrpFlag ) estará presente en una cabecera de segmento. Cuando está presente en una cabecera de segmento, la estructura de sintaxis ref_pic_list_struct( listIdx, ltrpFlag ) especifica la lista de imágenes de referencia listIdx de la imagen actual (la imagen que contiene el segmento). num_strp_entries[ listIdx ] especifica el número de entradas STRP en la estructura de sintaxis ref_pic_list_struct( listIdx, , ltrpFlag ). num_ltrp_entries[ listIdx ] especifica el número de entradas LTRP en la estructura de sintaxis ref_pic_list_struct( listIdx, ltrpFlag ). Cuando no está presente, el valor de num _ltrp_entries[ listIdx ][ rplsIdx ] se infiere que es igual a 0.

La variable NumEntriesInList[ listIdx ] se deriva de la siguiente manera:

NumRefPicEntriesInRpl[listIdx] = num_strp_entries[listIdx] num_ltrp_entries[listIdx]

El valor de NumRefPicEntries[ listIdx ] estará en el intervalo de 0 a sps_max_dec_pic_buffering_minus1, ambos inclusive. lt_ref_picflag[ listIdx ][ i ] igual a 1 especifica que la i-ésima entrada en la sintaxis ref_pic_list_struct( listIdx, ltrpFlag ) es una entrada LTRP. lt_ref_pic_flag[ listIdx ][ i ] igual a 0 especifica que la i-ésima entrada en la estructura de sintaxis ref_pic_list_struct( listIdx, ltrpFlag ) es una entrada STRP. Cuando no está presente, se infiere que el valor de lt_ref_pic flag listIdx ][ i ] es igual a 0. Es un requisito de conformidad del flujo de bits que la suma de lt_ref_pic_flag[ listIdx ][ i ] para todos los valores de i en el intervalo de 0 a NumRefPicEntries[ listIdx ] - 1, ambos inclusive, será igual a num-_ltrp_entries[ listIdx ]. delta_poc_st[ listIdx ][ i ], cuando la i-ésima entrada es la primera entrada STRP en la estructura de sintaxis ref_pic_list_struct( listIdx, ltrpFlag ), especifica la diferencia entre los valores de recuento de orden de imagen de la imagen actual y la imagen a la que hace referencia la i-ésima entrada o, cuando la i-ésima entrada es una entrada STRP pero no la primera entrada STRP en la estructura de sintaxis ref_pic_list_struct( listIdx, ltrpFlag ), especifica la diferencia entre los valores de recuento de orden de imagen de las imágenes a las que hace referencia la i-ésima entrada y la entrada STRP anterior en la estructura de sintaxis ref_pic_list_struct( listIdx, ltrpFlag ). El valor de delta_poc_st[ listIdx ] [ i ] estará en el intervalo de -215 a 215 - 1, ambos inclusive. poc_lsb_lt[ listIdx][ i ] especifica el valor del módulo de recuento de orden de imagen MaxLtPicOrderCntLsb de la imagen a la que se refiere la i-ésima entrada en la estructura de sintaxis ref_pic list_struct( listIdx, ItrpFlag ). La longitud del elemento de sintaxis poc_lsb_lt[ listIdx ][ i ] es Log2( MaxPicOrderCntLsb ) bits. delta_poc_msb_present_flag[ listIdx ][ i ] igual a 1 especifica que delta_poc_msb_cycle_lt[ listIdx ][ i ] está presente. delta_poc_msb_present_ flag[ listIdx ][ i ] igual a 0 especifica que delta_poc_msb_cycle_lt[ listIdx ][ i ] no está presente. Cuando num_ltrp_entries[ listIdx ] es mayor que 0 y hay más de una imagen de referencia en el DPB en el momento en que se decodifica esta cabecera de segmento para el cual el módulo MaxPicOrderCntLsb de PicOrderCntVal es igual a poc_lsb_lt[ listIdx ][ i ], delta_poc_msb_present_flag[ listIdx ][ i ] será igual a 1. Cuando no está presente, se infiere que el valor de delta_poc_msb_cycle_lt[ listIdx ][ i ] es igual a 0. delta_poc_msb_cycle_lt[ listIdx ][ i ] se usa para determinar el valor de los bits más significativos del valor de recuento de orden de imagen de la i-ésima entrada en la estructura de sintaxis ref_pic_list_struct( listIdx, ltrpFlag ). Cuando delta_poc_msb_cycle_lt[ listIdx ][ i ] no está presente, se infiere que es igual a 0. Cambios en el proceso de decodificación para el recuento de orden de imagen:

for( j = 0. pocBasc = PicOrderCntVal: j < NumEntricsInList| i | : j++) {

if( !lt_ref_pic_flag[ i 1 [ j ] ) {

RefPicPocList[ i || j | = pocBasc - delta j k k st| i ] | j )

if(hay una imagen de referencia picA en el DPB con PicOrderCntVal igual a RefPicPocList[ i ][ j ] ) RcfPicList| i || j | = pie A

clsc

RcfPicList| i II j | = “ninguna imagen de referencia”

pocBasc = RcfPicPocList[ i |[ j ]

} else {

if( dcltn poc nisb cyclc lil i ][ j ] es igual a o &&

hay una imagen de referencia picA en el DPB con PicOrderCntVal &

( MaxfetPicOrderC'ntLsb - 1) igual a poc_lsb_lt| i | | j | )

RefPicList) i ]l j | = picA

else if( delta_poc_msb_cycle_lt| i J| j | es igual a 1 &&

hay una imagen de referencia picA en el DPB con PicOrderCntVal igual a

( MaxPicOrderCntLsb * dclta_poc _msb_cyclcjt[ i ][ j 1) poc lsb ll[ i ]| j ] ) ) RefPicListJ i ][ j 1 = picA

else

RefPicList| i ]| j ] = “ninguna imagen de referencia”

}

Alternativamente, la semántica de delta_poc_msb_cycle_lt[ listIdx ][ i ] puede expresarse como delta de delta de manera que la construcción de la lista de imágenes de referencia se puede actualizar de la siguiente manera: las listas de imágenes de referencia RefPicList[ 0 ] y RefPicList[ 1 ] se construyen de la siguiente manera:

for( i = 0; i < 2: i++) {

prcvMsbCyclc = 0

for(j= 0. pocBnsc = PicOrderCntVal. j < NuniEntricsInList| i | (8-5)ift 'lt_rcf_pic_flag[<1>1 [ j ] ) {

RctPicPocListl i || j | = podíase - delta_poc_st| i |

íi(hay una imagen de referencia picA en el DPB con PicOrderCntVal igual a RefPicPocList[ i ][j ])RcfPicList| i || j | “ picA

else

ReiPícLísti i || j | =“ninguna imagen de referencia”

pocBasc = RefPicPocList| i ][ j ]

} else {

íf( delta poc imb cyclc ltl i ][ j |es igual a o &&

hay una referencia picA en el DPB con PicOrdciCntVal &

( MaxLtPicOrdcrCmLsb - 1 ) igual a poc_lsb_h|<1>1| j | )

RcfPicListl i || j ] — picA

else if( dclta_poc_msb_cyclc_U| i ]| j es igual a l &&

hay una referencia picA en el DPB con PicOrderCntVal igual a

( MaxPicOrdcrCntLsb * ( dclla_poc_n*sb_cyclc_lt| i || j | prcvMsbCyclc) )

+ pocjsbjtl<1>1| j | ) 11

RcfPicListl i || j | = picA

prcvMsbCyclc = dclia_poc_msb_cyclc_lt| i || j |

} else

RcfPicListl i|[ j 1 - “ninguna imagen de referencia”

>

;

}

Es un requisito de conformidad del flujo de bits que se apliquen las siguientes restricciones: para cada i igual a 0 o 1, NumEntriesInList[ i ][ RplsIdx[ i ] ] no será menor que NumRefIdxActive[ i ]. La imagen a la que hace referencia cada entrada activa en RefPicList[ 0 ] o RefPicList[ 1 ] estará presente en el DPB y tendrá TemporalId menor o igual que la de la imagen actual. Opcionalmente, se puede especificar además la siguiente restricción: el índice de entrada de cualquier entrada inactiva en RefPicList[ 0 ] o RefPicList[ 1 ] no se usará como índice de referencia para la decodificación de la imagen actual. Opcionalmente, se puede especificar además la siguiente restricción: una entrada inactiva en RefPicList[ 0 ] o RefPicList[ 1 ] no se referirá a la misma imagen que cualquier otra entrada en RefPicList[ 0 ] o RefPicList[ 1 ]. Una entrada<s>T<r>P en RefPicList[ 0 ] o RefPicList[ 1 ] de un segmento de una imagen y una entrada LTRP en RefPicList[ 0 ] o RefPicList[ 1 ] del mismo segmento o de un segmento diferente de la misma imagen no se referirán a la misma imagen. No se hará referencia a la propia imagen actual por ninguna entrada en RefPicList[ 0 ] o RefPicList[ 1 ]. No habrá ninguna entrada LTRP en RefPicList[ 0 ] o RefPicList[ 1 ] para la que la diferencia entre el PicOrderCntVal de la imagen actual y el PicOrderCntVal de la imagen a la que se refiere la entrada sea mayor o igual a 224. Sea setOfRefPics el conjunto de imágenes únicas a las que hacen referencia todas las entradas en RefPicList[ 0 ] y todas las entradas en RefPicList[ 1 ]. El número de imágenes en setOfRefPics será menor o igual que sps_max_dec_pic_buffering_minus1 y setOfRefPics será el mismo para todos los segmentos de una imagen.

Cada STRP se identifica por su valor PicOrderCntVal. Para cada LTRP, si se hace referencia a él por una entrada en RefPicList[ 0 ] o RefPicList[ 1 ] con delta_poc_msb_present_flag[ listIdx ][ i ] igual a 1, se identifica por su valor PicOrderCntVal, de lo contrario, se identifica por los LSB de Log2( MaxPicOrderCntLsb ) de su valor PicOrderCntVal.

Alternativa 1 de señalización del MSB del POC delta para las entradas de imágenes de referencia a largo plazo.

Esta realización proporciona una alternativa a la realización descrita en la sección anterior. Similar a la idea en la sección anterior, en lugar de usar bits adicionales para representar LSB del POC de imagen de referencia a largo plazo en ref_pic_list_struct( ), el ciclo de<m>Sdel POC se señaliza para diferenciar imágenes de referencia a largo plazo. Sin embargo, en esta alternativa, cuando se señaliza, la información del ciclo de MSB del POC no se señaliza dentro de ref_pic_list_struct( ), en cambio, cuando se necesita información del ciclo de MSB del POC, se señaliza en la cabecera de segmento. La estructura de sintaxis ref_pic_list_struct( ) se señalizará en el SPS y en las cabeceras de segmentos.

Un delta_poc_msb_present_flag[ i ][ j ] igual a 1 especifica que delta_poc_msb_cycle_lt[ i ][ j ] está presente. delta_poc_msb_present_flag[ i ][ j ] igual a 0 especifica que delta_poc_msb_cycle_lt[ i ][ j ] no está presente. Cuando NumLtrpEntries[ i ] es mayor que 0 y para la j-ésima entrada LTRP en la estructura de sintaxis ref_pic_list_struct( i, rplsIdx, 1) hay más de una imagen de referencia en el DPB en el momento en que se decodifica esta cabecera de segmento para el cual el módulo MaxPicOrderCntLsb de PicOrderCntVal es igual a poc_lsb_lt[ i ][ rplsIdx ][ jj ], donde jj es el índice de entrada de la entrada en la estructura de sintaxis ref_pic_list_struct( i, rplsIdx, 1 ) que es la j-ésima entrada LTRP en la estructura de sintaxis f_pic_list_struct( i, rplsIdx, 1 ), delta_poc_msb_present_flag[ i ][ j ] será igual a 1. Cuando no está presente, el valor de delta_poc_msb_cycle_lt[ i ][ j ] se infiere que es igual a 0. delta_poc_msb_cycle_lt[ i ][ j ] se usa para determinar el valor de los bits más significativos del valor de recuento de orden de imagen de la j-ésima entrada LTRP en la estructura de sintaxis ref_pic_list_struct( i, rplsIdx, 1 ). Cuando delta_poc_msb_cycle_lt[ i ][ j ] no está presente, se infiere que es igual a 0.

slice tor

Un delta_poc_msb_present_flag[ i ][ j ] igual a 1 especifica que delta_poc_msb_cycle_lt[ i ][ j ] está presente. delta_poc_msb_present_flag[ i ][ j ] igual a 0 especifica que delta_poc_msb_cycle_lt[ i ][ j ] no está presente. Cuando NumLtrpEntries[ i ] es mayor que 0 y hay más de una imagen de referencia en el DPB en el momento en que se decodifica esta cabecera de segmento para el cual el módulo MaxPicOrderCntLsb de PicOrderCntVal es igual a poc_lsb_lt[ i ][ rplsIdx ][ j ], delta_poc_msb_present_flag[ i ][ j ] será igual a 1. Cuando no está presente, se infiere que el valor de delta_poc _msb_cycle_lt[ i ][ j ] es igual a 0. delta_poc _msb_cycle_lt[ i ][ j ] se usa para determinar el valor de los bits más significativos del valor de recuento de orden de imagen de la i-ésima entrada en la estructura de sintaxis ref_pic_list _struct( i, rplsIdx, 1). Cuando delta_poc_msb_cycle_lt[ i ][ j ] no está presente, se infiere que es igual a 0. poc_lsb_lt[ listIdx ][ rplsIdx ][ i ] especifica el valor del módulo de recuento de orden de imagen MaxPicOrderCntLsb de la imagen a la que se refiere la i-ésima entrada en la estructura de sintaxis ref_pic_list_struct( listIdx, rplsIdx, ltrpFlag ). La longitud del elemento de sintaxis poc_lsb_lt[ listIdx ][ rplsIdx ][ i ] es Log2( MaxPicOrderCntLsb ) bits.

Cambios en el proceso de decodificación para el recuento de orden de imagen:

Para el diseño 1 de cabecera de segmento, las listas de imágenes de referencia RefPicList[ 0 ] y RefPicList[ 1 ] se construyen de la siguiente manera:

for( i = 0; i < 2; i+ ) {

if( rcf_pic_list_sps_flag[ i ] )

Rplsldx[ i ] = ref_pic_list_idx[ i ]

else

Rplsld\| i 1 = num refj)ic_lists_in_sps| i |

msbCycleldx = O

for( j =0. pocBasc = PicOrdcrCntVal; j < NumEntriesInList| i ]| Rplsld\| i | ];j++ ) {

i f ( !lt_rcf_p¡c_ílag| i || Rplsld\[ i | |( j | ) {

RcfPicPocListl i || j | = pocBasc - deltaj>oc st| i || Rplsldx| i 11| j |

if(hay una imagen de referencia picA en el DPB con PicOrderCntVal igual a RefPicPocList[ i ][ j ]) RcfPicListl i || j | = pie A

clse

RcfPicListl i || j | = “ninguna imagen de referencia”

pocBasc = RcfPicPocListl i |[ j |

} else {

if( dclta_poc_msb_cycle_lt[ i || msbCycleldx | es igual a 0 & &

hay una imagen de referencia picA en el DPB con PicOrdcrCntVal & ( MaxfetPicOrderCnlLsb - 1 ) igual a poc_lsb_ll| i || Rplsldx| i | || j | ) RcfPicListl i Jl j | = picA

elsc if( dclta_poc_msb_c\cle_lt| i || msbCycleldx | es igual a 1 & &

hay una imagen de referencia picA en el DPB con PicOrderCntVal igual a

( MaxPicOrderCntLsb *

dclta jjoc msb_cyclc_l msbCycleldx | ) poc_lsb_lt| i || Rplsldx| i | || j | ) ) {

RcfPicListl i = picA

msbCyclcIdx- -} clsc

RcfPicListl i ][ j 1 = “ninguna imagen de referencia”

I

í

Alternativamente, para el diseño 1 de segmento de cabecera, la semántica de delta_poc_msb_cycle_lt[ listIdx ][ i ] puede expresarse como delta de delta de manera que la construcción de la lista de imágenes de referencia se puede actualizar de la siguiente manera: las listas de imágenes de referencia RefPicList[ 0 ] y RefPicList[ 1 ] se construyen de la siguiente manera:

for( i = O; i < 2; i++) {

if( rcf_pic_list_sps_flag[ i ] )

Rplsldx| i | = rcfpic_list_idx| i |

clsc

Rplsldxf i | = num rcf_pic_lists_in_sps[ i ]

pcvMsbCyclc = O

msbCycleldx = O

for( j = 0. pocBasc = PicOrdcrCntVnl; j < NumEntricsInList[ i |[ Rplsldx[ i ) ]: j++) {

if( !lt_rcf_pic_flag[ i |[ Rplsldxl i ] ][ j 1) {

RcfPicPocListf i lf j | = pocBasc - delta_poc_st[ i lf Rplsldx[ i ] 1 f j ]

if(hay una imagen de referencia picA en el DPB con PicOrderCntVal igual a RefPicPocList[ i ][ j ]) RefPicList| i || j ] = pie A

clsc

RefPicList[ i J[ j ] = “ninguna imagen de referencia”

pocBase = RefPicPocList| i j| j |

} else {

if( deltajjoc_msb_cycle_lt| i || msbCycleldx | es igual a () &&

hay una imagen de referencia picA en el DPB con PicOrderCntVal &

( MaxLtPicOrdcrCntLsb - 1 ) igual a poc_lsb_lt[ i | | Rplsldxl i ] ]| j ] )

RcfPicListl i || j | = picA

clsc if( deltajxx:_msb_cyclcU| i || msbCvclcIdx | es igual a 1 &&

hay una imagen de referencia picA en el DPB con PicOrderCntVal igual a

( MaxPicOrderCntLsb * ( deltajxjc_nisb_cycle_lt[ i | | msbCycleldx ] prevMsbCycle) poc_lsb_lt| i || Rplsldx[ i 11| j | ) ) {

RcfPicListl i || j ] = picA

prevMsbCycle = delta_poc_msb_cyclc_lt| i |[ msbCycleldx ]

msbCyclcídx-H-} else

RefPicList| i || j ] =“ninguna imagen de referencia”

S

}

Para el diseño 2 de cabecera de segmento, las listas de imágenes de referencia RefPicList[ 0 ] y RefPicList[ 1 ] se construyen de la siguiente manera:

for( i = 0; i < 2; í-H-) {

if( ref pie list_sps _flag[ i 1)

Rplsldxl iJ= rcf_pic_list_id\| i |

else

Rplsldxl iJ= mim_ref_pic_lists_m_sps[ i ]

for( j = 0. pocBase = PicOrdcrCnlVal:j< NumEntriesInListl i || Rplsldxl iJ]:j++){

if( !lt ref pie flag[ i || Rplsldxl i ] ] [ j ] ) {

RefPicPocListl ij [ j ]= pocBasc - dclta_poc_st| i || Rplsldxli] ][j ]

ífíhay una imagen de referencia picA en el DPB con PicOrderCntVal igual a RefPicPocListl i ][ j 1)RcfPicListl11| j | = picA

clsc

RcfPicLíst[ i || j ] =“ninguna imagen de referencia”

pocBase = RefPicPocListl i || j ]

) else (

if( delta_poc_msb_cycle_lt[ i ]|j]es igual a o&&

hay una imagen de referencia picA en el DPB con PicOrderCntVal &

( MaxttPicOiderCntLsb - 1 )igual apoc_lsb_lt[ i |[ Rplsldxl i 11| j | :

RefPicListJ i || j | = picA

else if( delta_poc_msb_cycle_lt[ iJI j Jes igual a 1&.&

hay una imagen de referencia picA en el DPB con PicOrderCntVal igual a (

MaxPicOrdcrCntLsb *

delta_poc_msb_cycle_lt| i || j | ) poc_lsb_lt| i || Rplsldx| i 11| j | ) ) RefPicListf i H j ] = picA

clsc

RefPicListl i II j ] = “ninguna imagen de referencia”

}

>

}

Alternativamente, para el diseño 2 de cabecera de segmento, la semántica de delta_poc_msb_cycle_lt[ listIdx ][ i ] puede expresarse como delta de delta de manera que la construcción de la lista de imágenes de referencia se puede actualizar de la siguiente manera: las listas de imágenes de referencia RefPicList[ 0 ] y RefPicList[ 1 ] se construyen de la siguiente manera:

for( i = 0; i < 2; i++) {

if( ref_pic_list_sps_flag[ i 1 )

Rplsldxf i ] = ref_pic_list_idx[ i ]

else

Rp]sldx[ i ] = num rcbpicjistsinspsf i ]

prevMsbCycle = 0

for( j = 0, pocBasc = PicOrderCntVal; j < NiimEntriesinLislf i lf Rplsldxf i ] l; j++) {

if( Mt_rcf_pic_flag[ i lf Rplsldxf í 1 ][j ] ){

RcíPicPocListf i lf j 1 = pocBase - delta_poc_st[ i ][ Rplsldxf i 1 ]f j ]

iífhay una imagen de referencia picAen el DPB con PicOrderCntVal igual a RefPIcPocListf i ][j ]) RcfPicListf i ]f j ] = picA

else

RefPicListf i Jf j ] = “ninguna imagen de referencia"

pocBasc = RefPicPocLisil i II j 1

} clsc {

íR dclla_poc_msb_cyclc_lt[ i || j | es igual a 0 &&

hay una imagen de referencia picAen el DPB con PicOrdcrCnlVal &

( MaxUPicOrdcrCmLsb - l ) igual a poc_lsb_1t| i || Rplsldx| i 1II j 1) RcfPicListf i ]f j ] = picA

clsc if( deltajx)c_nisb_cyclejt[ i |[ msbCycleldx | es igual a 1 &&

hay una imagen de referencia picAen el DPB con PicOrderCntVal igual a

( MaxPicOrdcrCntLsb * ( dclia_poc_msb_cycleJif i ][j 1

prevMsbCycle ) poc lsb ltf i ][ Rplsldxf i 1 lf j 1)) í

RcfPicListf i lf j 1 = picA

prevMsbCycle = delta_poc_msb_cycle_lt[ i J [ j ]

} else

RefPicListf i ]f j ] - 'ninguna imagen de referencia"

}

>

}

Es un requisito de conformidad del flujo de bits que se apliquen las siguientes restricciones: para cada i igual a 0 o 1, NumEntriesInList[ i ][ RplsIdx[ i ] ] no será menor que NumRefIdxActive[ i ]. La imagen a la que hace referencia cada entrada activa en RefPicListf 0 ] o RefPicList[ 1 ] estará presente en el DPB y tendrá TemporalId menor o igual que la de la imagen actual. Opcionalmente, se puede especificar además la siguiente restricción: el índice de entrada de cualquier entrada inactiva en RefPicListf 0 ] o RefPicListf 1 ] no se usará como índice de referencia para la decodificación de la imagen actual. Opcionalmente, se puede especificar además la siguiente restricción: una entrada inactiva en RefPicListf 0 ] o RefPicListf 1 ] no se referirá a la misma imagen que cualquier otra entrada en RefPicListf 0 ] o RefPicListf 1 ]. Una entrada<s>T<r>P en RefPicListf 0 ] o RefPicListf 1 ] de un segmento de una imagen y una entrada LTRP en RefPicListf 0 ] o RefPicListf 1 ] del mismo segmento o de un segmento diferente de la misma imagen no se referirán a la misma imagen. No se hará referencia a la propia imagen actual por ninguna entrada en RefPicListf 0 ] o RefPicListf 1 ]. No habrá ninguna entrada LTRP en RefPicListf 0 ] o RefPicListf 1 ] para la que la diferencia entre el PicOrderCntVal de la imagen actual y el PicOrderCntVal de la imagen a la que se refiere la entrada sea mayor o igual a 224. Sea setOfRefPics el conjunto de imágenes únicas a las que hacen referencia todas las entradas en RefPicListf 0 ] y todas las entradas en RefPicListf 1 ]. El número de imágenes en setOfRefPics será menor o igual que sps_max_dec_pic_buffering_minus1 y setOfRefPics será el mismo para todos los segmentos de una imagen.

Cada STRP se identifica por su valor PicOrderCntVal. Para cada LTRP, si se hace referencia a él por una entrada en RefPicListf 0 ] o RefPicListf 1 ] con delta_poc_msb_present _flagf i ]f j ] igual a 1, se identifica por su valor PicOrderCntVal, de lo contrario, se identifica por los LSB de Log2( MaxPicOrderCntLsb ) de su valor PicOrderCntVal.

Alternativa 2 de señalización del MSB del POC delta para las entradas de imágenes de referencia a largo plazo.

En una realización alternativa de la descripción, la descripción descrita en la primera realización o la segunda realización se puede combinar con las realizaciones descritas anteriormente y nombradas "Señalización del MSB del POC delta para entradas de imagen de referencia a largo plazo" y "Alternativa 1 de señalización del MSB del POC delta para entradas de imagen de referencia a largo plazo", respectivamente. Los aspectos de las descripciones que se combinarán son la señalización de adicional_lt_poc_lsb (es decir, de la primera realización o la segunda realización) e información del ciclo de MSB del POC (es decir, de la realización descrita anteriormente y nombrada "Señalización de MSB del POC delta para entradas de imagen de referencia a largo plazo" o "Alternativa 1 de señalización de MSB del POC delta para entradas de imagen de referencia a largo plazo"). Un ejemplo de cómo puede realizarse la combinación, combinando la primera realización y la realización descrita anteriormente y nombrada "Alternativa 1 de señalización de MSB del POC delta para entradas de imagen de referencia a largo plazo", se describe de la siguiente manera:

Un delta_poc_msb_present_flag[ i ][ j ] igual a 1 especifica que delta_poc_msb_cycle_lt[ i ][ j ] está presente. delta_poc_msb_present_flag[ i ][ j ] igual a 0 especifica que delta_poc_msb_cycle_lt[ i ][ j ] no está presente. Cuando NumLtrpEntries[ i ] es mayor que 0 y para la j-ésima entrada LTRP en la estructura de sintaxis ref_pic_list_struct( i, rplsIdx, 1) hay más de una imagen de referencia en el DPB en el momento en que se decodifica esta cabecera de segmento para el cual el módulo MaxPicOrderLtCntLsb de PicOrderCntVal es igual a poc_lsb_lt[ i ][ rplsIdx ][ jj ], donde jj es el índice de entrada en la entrada en la estructura de sintaxis ref_pic_list_struct( i, rplsIdx, 1 ) que es la j-ésima entrada LTRP en la estructura de sintaxis ref_pic_list_struct( i, rplsIdx, 1 ), delta_poc_msb_present_flag[ i ][ j ] será igual a 1. Cuando no está presente, el valor de delta_poc_msb_cycle_lt[ i ][ j ] se infiere que es igual a 0. delta_poc_msb_cycle_lt[ i ][ j ] se usa para determinar el valor de los bits más significativos del valor de recuento de orden de imagen de la j-ésima entrada LTRP en la estructura de sintaxis ref_pic_list_struct( i, rplsIdx, 1 ). Cuando delta_poc_msb_cycle_lt[ i ][ j ] no está presente, se infiere que es igual a 0.

Cambios en el proceso de decodificación para el recuento de orden de imagen:

for( i = O; i < 2; i++) {

if( rcf pie list sps flag| i ))

Rplsldx[ i ] = ref_pic_lia_idx[ i ]

elsc

Rplsldx[ i | = num_ref_pic_Iias_in_sps| i ]

nisbCycleldx = 0

for( j = 0. pocBasc = PicOrderCntVal: j < NumEntriesInListf i ][ RplsIdx! i ] ]; j++) {

if( !lt_rcf_pic_flag[ i || Rplsldx| i | ][ j ] ) {

RcfPicPocListl i || j | = pocBasc - delta_poc_st| i || Rplsldx| i 11[ j ]

if(hay una imagen de referencia picA en el DPB con PicOrderCntVal igual a RefPicPocList[ i ][ j ]) RcfPicLial i ][ j ] = pie A

elsc

RcfPicListl i || j | = “ninguna imagen de referencia”

pocBase= RefPicPocI.ist[ i || j |

} else {

if( deltaj)oc_msb_cyclcJt[ i ][ nisbCycleldx | es igual a 0& &

(hay una imagen de referencia picA en el DPB con PicOrderCntVal & ( MaxLtPicOrderC'ntLsb- 1 ) igual a poc Isb lt|<1>1| Rplsldx| i | || j | ) RcfPicLial i ][ j ] = picA

clse if( dcltajjoc_msb_cyclc_lt| i ]| nisbCycleldx | es igual a 1 &&

hay una imagen de referencia picA en el DPB con PicOrderCntVal igual a ( MaxLlPicOrderCnlLsb *

delta_pocjiisb_cyclc_lt| i |[ nisbCycleldx | ) poc_lsb_lt[ i ][ Rplsldx[ i ] || j ] ) ) {

RcfPicLial i | | j ] = picA

msbCycleldx-H-} else

RefPicList[ i ] [ j ] = “ninguna imagen de referencia"

/

}

Alternativamente, la semántica de delta_poc_msb_cycle_lt[ listIdx ][ i ] puede expresarse como delta de delta de manera que la construcción de la lista de imágenes de referencia se puede actualizar de la siguiente manera: las listas de imágenes de referencia RefPicList[ 0 ] y RefPicList[ 1 ] se construyen de la siguiente manera: for( i = 0; i < 2; i+ ) {

if( ref_pic_list sps_flag[ i ] )

Rplsldx| i ] = ref_pic_list_idx[ i ]

else

Rplsldx[ i ] = num_ref_pic_lists_in_sps[ i ]

prevMsbCycle = 0

msbCyclcIdx = O

for( j = O, pocBasc = PicOrdcrCntVal: j < NumEntricslnList[ i ][ Rplsldx[ i ] |; j++) {

if( !lt_ref_pic_flag| i ][ Rplsldx| i | J| j | ) {

RefPicPocListl i | | j ] = pocBase-delta_poc_st| i || Rplsldx| i | )| j |

if(hay una imagen de referencia picA en el DPB con PicOrderCntVal igual a RefPicPocList[ i ][ j ]) RefPicListl i Jl j J = pie A

else

RcfPicLisl[ i ][ j ] = “ninguna imagen de referencia”

pocBase = RefPicPocListl i J| j |

) else {

if( delta_poc_msb_cycle_ltl i H msbCycleldxJes igual a o &&

hay una imagen de referencia picA en el DPB con PicOrderCntVal &

( MaxLtPicOrdcrCntLsb - 1 ) igual a poc_lsb_lt[ i |[ Rplsldxl i ) |[ j J ) RefPicLislf i ][ j ] = picA

else if( delta_poc_msb_cycle_lt[ i || msbCycleldx | es igual a 1 &&

hay una imagen de referencia picA en el DPB con PicOrderCntVal igual a

( MaxLtPicOrderCntLsb * ( deltajX K insb cycleJt[ i Jl msbCycleldx J prevMsbCycle ) poc_lsb_lt[ i Jl RplsldxJ i J ][ j ] ) ) {

RcfPicListJ i Jl j J = picA

prevMsbCycle = delta_poc_msb_cycle_lt[ i || msbCycleldx ]

msbCycleldx-H-} else

RefPicListl i ]| j ] = “ninguna imagen de referencia”

}

>

Cada STRP se identifica por su valor PicOrderCntVal. Para cada LTRP, si se hace referencia a él por una entrada en RefPicList[ 0 ] o RefPicList[ 1 ] con delta_poc_msb_present _flag[ i ][ j ] igual a 1, se identifica por su valor PicOrderCntVal, de lo contrario, se identifica por los LSB de Log2( MaxLtPicOrderCntLsb ) de su valor PicOrderCntVal.

Señalizar siempre las listas de imágenes de referencia en cabeceras de segmentos con diferenciación entre imágenes de referencia a corto y largo plazo.

Esta sección describe otra realización alternativa de la descripción. La descripción es relativa al último WD de VVC (es decir, solo se describe el delta relativo al último WD de VVC en JVET-K1001-v1, mientras que los textos en el último WD de VVC que no se mencionan a continuación se aplican como son). Esta realización alternativa se resume de la siguiente manera: las estructuras de lista de imágenes de referencia se señalizan solo en cabeceras de segmentos. Tanto las imágenes de referencia a corto plazo como las imágenes de referencia a largo plazo se identifican por sus LSB de POC, que se pueden representar por números de bits que son diferentes del número de bits usados para representar los<l>Sde POC señalizados en cabeceras de segmentos para derivación de valores de POC. Además, el número de bits usados para representar los LSB de POC para identificar imágenes de referencia a corto plazo e imágenes de referencia a largo plazo puede ser diferente.

Sintaxis de cabecera de unidad NAL.

Sintaxis RBSP del conjunto de parámetros de secuencia.

Sintaxis RBSP del conjunto de parámetros de imagen.

Sintaxis de cabecera de segmento.

Sintaxis de la estructura de lista de imágenes de referencia.

Semántica de cabecera de unidad NAL.

Tabla 7-1 - Códigos de tipo de unidad NAL y clases de tipo de unidad NAL

El nuh_temporal_id_plus1 menos 1 especifica un identificador temporal para la unidad NAL. El valor de nuh_temporal_id_plus1 no será igual a 0. La variable TemporalId se especifica de la siguiente manera: TemporalId = nuh_temporal _id_plus1 - 1.

Cuando nal_unit_type es igual a IRAP_NUT, el segmento codificado pertenece a una imagen IRAP, y TemporalId será igual a 0. El valor de TemporalId será el mismo para todas las unidades NAL de VCL de una unidad de acceso. El valor de TemporalId de una imagen codificada o de una unidad de acceso es el valor de TemporalId de las unidades NAL de VCL de la imagen codificada o de la unidad de acceso. El valor de TemporalId para las unidades NAL no VCL se limita de la siguiente manera: si nal_unit_type es igual a SPS_NUT, TemporalId será igual a 0 y TemporalId de la unidad de acceso que contiene la unidad NAL será igual a 0. De lo contrario, si nal_unit_type es igual a EOS_NUT o EOB_NUT, TemporalId será igual a 0. De lo contrario, TemporalId será mayor o igual que TemporalId de la unidad de acceso que contiene la unidad NAL. Cuando la unidad NAL es una unidad<n>A<l>no<v>C<l>, el valor de TemporalId es igual al valor mínimo de los valores de TemporalId de todas las unidades de acceso a las que se aplica la unidad NAL no VCL. Cuando nal_unit_type es igual a PPS_NUT, TemporalId es mayor o igual que TemporalId de la unidad de acceso que contiene, ya que todos los conjuntos de parámetros de imagen (PPS) se incluirán al comienzo de un flujo de bits, en donde la primera imagen codificada tiene TemporalId igual a 0. Cuando nal_unit_type es igual a PREFIX_SEI_NUT o SUFFIX_SEI_NUT, TemporalId es mayor o igual que TemporalId de la unidad de acceso que contiene, ya que una unidad NAL de información de mejora suplementaria (SEI) contiene información que se aplica a un subconjunto de flujo de bits que incluye unidades de acceso para las que los valores de TemporalId son mayores que TemporalId de la unidad de acceso que contiene la unidad NAL de SEI. nuh_reserved_zero_7bits será igual a '0000000'. Otros valores de nuh_reserved_zero_7bits serán especificados en el futuro por la ITU-T | ISO/IEC. Los decodificadores ignorarán (es decir, eliminarán del flujo de bits y descartarán) las unidades NAL con valores de nuh_reserved_zero_7bits no iguales a '0000000'.

Semántica RBSP del conjunto de parámetros de secuencia.

Un log2_max_pic_order_cnt_lsb_minus4 especifica el valor de la variable MaxPicOrderCntLsb que se usa en el proceso de decodificación para el recuento de orden de imagen de la siguiente manera:

MaxPicOrderCntLsb = 2' lo^-n^-P^onfer^aj^niinusí+4 >

El valor de log2_max_pic_order_cnt_lsb_minus4 estará en el intervalo de 0 a 12, ambos inclusive. sps_max_dec_pic_buffering_minus1 más 1 especifica el tamaño máximo requerido del búfer de imágenes decodificadas para la CVS en unidades de búferes de almacenamiento de imágenes. El valor de sps_max_dec_pic_buffering _minus1 estará en el intervalo de 0 a MaxDpbSize - 1, ambos inclusive, donde MaxDpbSize es como se especifica en otro lugar. additional_st_poc_lsb especifica el valor de la variable MaxStPicOrderCntLsb que se usa en el proceso de decodificación para las listas de imágenes de referencia de la siguiente manera:

MaxStPicOrderClltLsb =2^^■0^ _ma)¿_pic_0riler_cnt_lsb_minus4 4 additional_st_poc_lsb )

El valor de additional_st_poc_lsb estará en el intervalo de 0 a 32 - log2_max_pic_order_cnt_lsb_minus4 - 4, , ambos inclusive. long_term_ref_pics_flag igual a 0 especifica que no se use ningún LTRP para interpredicción de ninguna imagen codificada en la CVS. long_term_ref_pics_flag igual a 1 especifica que se usarán LTRPs para la interpredicción de una o más imágenes codificadas en la CVS. additional_lt_poc_lsb especifica el valor de la variable MaxLtPicOrderCntLsb que se usa en el proceso de decodificación para las listas de imágenes de referencia de la siguiente manera:

M a x L t P i c O r d e r C n t L s b = 2 ^ ° ^ ~ m x ^ c~°ráer~cnt~ ^ ~ ^ us4 4 additional_st_poc_lsb additional_lt_poc_lsb)

El valor de additional_lt_poc_lsb estará en el intervalo 0 y 32 - log2_max_pic_order_cnt_lsb_minus4 - 4 -additional_st_poc_lsb, ambos inclusive. Cuando no está presente, el valor de additional_lt_poc_lsb se infiere que es igual a 0.

Semántica RBSP del conjunto de parámetros de imagen.

Semántica de cabecera de segmento.

Tabla 7-3 - Asociación de nombres a slice_type

Cuando nal_unit_type es igual a IRAP_NUT, es decir, la imagen es una imagen IRAP, slice_type será igual a 2.

Un slice_pic_order_cnt_lsb especifica el módulo de recuento de orden de imagen MaxPicOrderCntLsb para la imagen actual. La longitud del elemento de sintaxis slice_pic_order_cnt_lsb es log2_max_pic_order_cnt_lsb_minus4 4 bits. El valor de slice_pic_order_cnt_lsb estará en el intervalo de 0 a MaxPicOrderCntLsb - 1, ambos inclusive. Cuando slice_pic_order_cnt_lsb no está presente, se infiere que slice_pic_order_cnt_lsb es igual a 0. num_ref_idx_active_override_flag igual a 1 especifica que el elemento de sintaxis num_ref_idx_active _minus1[ 0 ] está presente para los segmentos P y B y que el elemento de sintaxis num_ref_idx_active_minus1[ 1 ] está presente para los segmentos B. num_ref_idx_active_override_flag igual a 0 especifica que los elementos de sintaxis num_ref_idx_active_minus1[ 0 ] y idx_active_minus1 [ 1 ] no están presentes. num_ref_idx_active_minus1[ i ], cuando está presente, especifica el valor de la variable NumRefIdxActive[ i ] de la siguiente manera:

NumRefldx Active [ i ] = num_ref_idx_active_minusl[ i ] 1

El valor de num_ref_idx_active_minus1[ i ] estará en el intervalo de 0 a 14, ambos inclusive. El valor de NumRefIdxActive[ i ] - 1 especifica el índice de referencia máximo para la lista de imágenes de referencia i que se usará para decodificar el segmento. Cuando el valor de NumRefIdxActive[ i ] es igual a 0, no se usará ningún índice de referencia para la lista de imágenes de referencia i para decodificar el segmento. Para i igual a 0 o 1, cuando el segmento actual es un segmento B y num_ref_idx_active_override_flag es igual a 0, se infiere que NumRefIdxActive[ i ] es igual a num_ref_idx_default_active_minus1[ i ] 1. Cuando el segmento actual es un segmento P y num_ref_idx_active_override_flag es igual a 0, se infiere que NumRefIdxActive[ 0 ] es igual a num_ref_idx_default_active_minus1[ 0 ] 1. Cuando el segmento actual es un segmento P, se infiere que NumRefIdxActive[ 1 ] es igual a 0. Cuando el segmento actual es un segmento I, tanto NumRefIdxActive[ 0 ] como NumRefIdxActive[ 1 ] se infieren que son iguales a 0. Alternativamente, para i igual a 0 o 1, lo siguiente se aplica después de lo anterior: sea rplsIdx1 igual a ref_pic_list_sps_flag[ i ] ? ref_pic_list_idx[ i ] : num_ref_pic_lists_in_sps[ i ], y numRpEntries[ i ] sea igual a num_strp_entries[ i ][ rplsIdx1 ] num_ltrp_entries[ i ][ rplsIdx1 ]. Cuando NumRefIdxActive[ i ] es mayor que numRpEntries[ i ], el valor de NumRefIdxActive[ i ] se establece igual a numRpEntries[ i ].

Semántica de estructura de lista de imágenes de referencia.

La estructura de sintaxis ref_pic_list_struct( listldx, ItrpFlag ) estará presente en una cabecera de segmento. Cuando está presente en una cabecera de segmento, la estructura de sintaxis ref_pic_list_struct( listldx, ItrpFlag ) especifica la lista de imágenes de referencia listIdx de la imagen actual (la imagen que contiene el segmento). num_strp_entries[ listIdx ] especifica el número de entradas STRP en la estructura de sintaxis ref_pic_list_struct( listldx, ltrpFlag ). num_ltrp_entries[ listIdx ] especifica el número de entradas LTRP en la estructura de sintaxis ref_pic_list_struct( listIdx, ltrpFlag ). Cuando no está presente, el valor de num_ltrp_entries[ listIdx ] se infiere que es igual a 0. La variable NumEntriesInList[ listIdx ] se deriva de la siguiente manera:

NumEntriesInList[ listldx ] = num_strp_entries[ listldx ] num_ltrp_entries[ listldx ]

El valor de NumEntriesInList[ listIdx ] estará en el intervalo de 0 a sps_max_dec_pic_buffering_minus1, ambos inclusive. lt_ref_pic_flag[ listIdx ][ i ] igual a 1 especifica que la i-ésima entrada en la estructura de sintaxis ref_pic_list_struct( listIdx, ltrpFlag ) es una entrada LTRP. lt_ref_pic_flag[ listIdx ][i] igual a 0 especifica que la i-ésima entrada en la estructura de sintaxis ref_pic_list_struct( listldx, ltrpFlag ) es una entrada STRP. Cuando no está presente, el valor de lt_ref_pic_flag[ listIdx ][ i ] se infiere que es igual a 0. Es un requisito de conformidad del flujo de bits que la suma de lt_ref_pic_flag[ listIdx ][ i ] para todos los valores de i en el intervalo de 0 a NumEntriesInList[ listIdx ] - 1, ambos inclusive, sea igual a num_ltrp_entries[ listIdx ]. poc_lsb_st[ listIdx ][ i ], cuando lt_ref_pic_flag[ listIdx ][ i ] es igual a 0, especifica el valor del módulo de recuento de orden de imagen MaxStPicOrderCntLsb de la imagen a la que se refiere la i-ésima entrada en la estructura de sintaxis ref_pic_list_struct( listIdx, ltrpFlag ). La longitud del elemento de sintaxis poc_lsb_st[ listIdx ][ i ] es Log2( MaxStPicOrderCntLsb ) bits. poc_lsb_lt[ listIdx ][ i ], cuando lt_ref_pic_flag[ listIdx ][ i ] es igual a 1, especifica el valor del módulo de recuento de orden de imagen MaxLtPicOrderCntLsb de la imagen a la que se hace referencia por la i-ésima entrada en la estructura de sintaxis ref_pic_list_struct( listIdx, ltrpFlag ). La longitud del elemento de sintaxis poc_lsb_lt[ listIdx ][ i ] es Log2( MaxLtPicOrderCntLsb ) bits.

Se analiza el proceso de decodificación.

Proceso general de decodificación.

El proceso de decodificación funciona de la siguiente manera para la imagen actual CurrPic: la decodificación de las unidades NAL se especifica a continuación. Los procesos siguientes especifican los siguientes procesos de decodificación usando elementos de sintaxis en la capa de cabecera de segmento y superiores: se derivan variables y funciones relacionadas con el recuento de orden de imagen. Esto debe invocarse solo para el primer segmento de una imagen. Al comienzo del proceso de decodificación para cada segmento de una imagen no IRAP, se invoca el proceso de decodificación para la construcción de listas de imágenes de referencia para derivación de la lista 0 de imágenes de referencia (RefPicList[ 0 ]) y la lista 1 de imágenes de referencia (RefPicList[ 1 ]). Se invoca el proceso de decodificación para el marcado de imágenes de referencia, en donde las imágenes de referencia se marcan como "no usadas como referencia" o "usadas como referencia a largo plazo". Esto debe invocarse solo para el primer segmento de una imagen. Se invocan los procesos de decodificación para codificar unidades de árbol, escalar, transformar, filtrar en bucle, etc. Después de que se hayan decodificado todos los segmentos de la imagen actual, la imagen decodificada actual se marca como "usada como referencia a corto plazo".

Proceso de decodificación de la unidad NAL.

Las entradas a este proceso son unidades NAL de la imagen actual y sus unidades NAL no VCL asociadas. Las salidas de este proceso son las estructuras de sintaxis RBSP analizadas encapsuladas dentro de las unidades NAL. El proceso de decodificación para cada unidad NAL extrae la estructura de sintaxis RBSP de la unidad NAL y, a continuación, analiza la estructura de sintaxis RBSP.

Proceso de decodificación de segmentos.

Proceso de decodificación para el recuento de orden de imagen.

La salida de este proceso es PicOrderCntVal, el recuento de orden de imagen de la imagen actual. Los recuentos de orden de imagen se usan para identificar imágenes, para derivar parámetros de movimiento en modo de fusión y predicción de vectores de movimiento, y para la verificación de conformidad del decodificador. Cada imagen codificada está asociada con una variable de recuento de orden de imagen, denominada PicOrderCntVal. Cuando la imagen actual no es una imagen IRAP, las variables prevPicOrderCntLsb y prevPicOrderCntMsb se derivan de la siguiente manera: sea prevTid0Pic la imagen anterior en el orden de decodificación que tenga TemporalId igual a 0. La variable prevPicOrderCntLsb se establece igual a slice_pic_order_cnt_lsb de prevTid0Pic. La variable prevPicOrderCntMsb se establece igual a PicOrderCntMsb de prevTid0Pic. La variable PicOrderCntMsb de la imagen actual se deriva de la siguiente manera: si la imagen actual es una imagen IRAP, PicOrderCntMsb se establece igual a 0. De lo contrario, PicOrderCntMsb se deriva de la siguiente manera:

if( ( slice_pic_order_cnt_lsb < prevPicOrderCntLsb ) &&

( ( prevPicOrderCntLsb - slice_pic_order_cnt_lsb ) >= ( MaxPicOrderCntLsb / 2 ) ) ) PicOrderCntMsb = prevPicOrderCntMsb MaxPicOrderCntLsb

else if( (slice_pic_order_cnt_lsb > prevPicOrderCntLsb ) &&

( ( slice_pic_order_cnt_lsb - prevPicOrderCntLsb ) > ( MaxPicOrderCntLsb / 2 ) ) ) PicOrderCntMsb = prevPicOrderCntMsb - MaxPicOrderCntLsb

else

PicOrderCntMsb = prevPicOrderCntMsb

PicOrderCntVal se deriva de la siguiente manera:

PicOrderCntVal = PicOrderCntMsb slice _pic_order_cnt_lsb

Todas las imágenes IRAP tendrán PicOrderCntVal igual a 0, ya que slice_pic_order_cnt_lsb se infiere que es 0 para las imágenes IRAP y prevPicOrderCntLsb y prevPicOrderCntMsb se establecen ambos igual a 0. El valor de PicOrderCntVal estará en el intervalo de -231 a 231 - 1, ambos inclusive. En una CVS, los valores de PicOrderCntVal para dos imágenes codificadas cualesquiera no serán los mismos. En cualquier momento durante el proceso de decodificación, los valores de PicOrderCntVal & ( MaxStPicOrderCntLsb - 1 ) para dos imágenes de referencia cualesquiera en el DPB no serán los mismos. En cualquier momento durante el proceso de decodificación, los valores de PicOrderCntVal & ( MaxLtPicOrderCntLsb - 1 ) para dos imágenes de referencia cualesquiera en el DPB no serán los mismos.

La función PicOrderCnt( picX ) se especifica de la siguiente manera:

PicOrderCnt( p icX ) = PicOrderCntVal de la imagen picX

La función DiffPicOrderCnt( picA, picB ) se especifica de la siguiente manera:

DiffPicOrderCnt( picA, picB ) = PicOrderCnt( picA) - PicOrderCnt( picB )

El flujo de bits no contendrá datos que den como resultado valores de DiffPicOrderCnt( picA, picB ) usados en el proceso de decodificación que no estén en el intervalo de -215a 215 - 1, ambos inclusive. Sea X la imagen actual e Y y Z sean otras dos imágenes en la misma CVS, se considera que Y y Z están en la misma dirección de orden de salida de X cuando DiffPicOrderCnt( X, Y ) y DiffPicOrderCnt( X, Z ) son positivos o ambos son negativos.

Este proceso se invoca al principio del proceso de decodificación para cada segmento de una imagen no IRAP. Las imágenes de referencia se abordan a través de índices de referencia. Un índice de referencia es un índice en una lista de imágenes de referencia. Cuando se decodifica un segmento I, no se usa ninguna lista de imágenes de referencia en la decodificación de los datos del segmento. Cuando se decodifica un segmento P, solo se usa la lista 0 de imágenes de referencia (es decir, RefPicList[ 0 ]) en la decodificación de los datos del segmento. Cuando se decodifica un segmento B, tanto la lista 0 de imágenes de referencia como la lista 1 de imágenes de referencia (es decir, RefPicList[ 1 ]) se usan en la decodificación de los datos del segmento. Al comienzo del proceso de decodificación para cada segmento de una imagen no IRAP, se derivan las listas de imágenes de referencia RefPicList[ 0 ] y RefPicList[ 1 ]. Las listas de imágenes de referencia se usan en el marcado de imágenes de referencia o en la decodificación de los datos del segmento. Para un segmento I de una imagen no IRAP que no es el primer segmento de la imagen, RefPicList[ 0 ] y RefPicList[ 1 ] se derivarán para verificar la conformidad del flujo de bits, pero su derivación no es necesaria para la decodificación de la imagen o las imágenes actuales que siguen a la imagen actual en el orden de decodificación. Para un segmento P que no es el primer segmento de una imagen, RefPicList[ 1 ] se derivará para verificar la conformidad del flujo de bits, pero su derivación no es necesaria para la decodificación de la imagen o las imágenes actuales que siguen a la imagen actual en el orden de decodificación.

Las listas de imágenes de referencia RefPicList[ 0 ] y RefPicList[ 1 ] se construyen de la siguiente manera: for( i= 0; i< 2; i++) {

for( j = 0; j < NumEntriesIiiList[ i];j++ ) {

if( lt_ref_pic_flag[ i ] [ j ] ) í

if(hay una imagen de referencia picA en el DPB con PicOrderCntVal & (MaxLtPIcOrderCntLsb - 1 ) igual a poc_lsb_U| i ][ j ] J

RefPicList| i 11 j J = picA

else

RcfPicList[ ¡ || j | = 'ninguna imagen de referencia”

}

>

}

for( i = 0; i < 2; i++ ) {

for( j = 0 ; j < NumEntriesInList[ i];j+ ) {

if( !lt_ref_pic_flíigl i Jlj | ) {

if( hay una imagen de referencia a corto plazo picA en el DPB

con PicOrdcrCnlVal & ( MaxStPicOrdcrCnlLsb - 1 ) igual a poc_lsb_st[ i ][ j ] ) RefPieLisL| i 11 jJ= picA

else

RcfPícList[ i || j 1 = “ninguna imagen de referencia”

í

>

■ii

Para cada i igual a 0 o 1, se aplica lo siguiente:

las primeras entradas NumRefIdxActive[ i ] en RefPicList[ i ] se denominan entradas activas en RefPicList[ i ], y las demás entradas en RefPicList[ i ] se denominan entradas inactivas en RefPicList[ i ]. Cada entrada en RefPicList[ i ][ j ] para j en el intervalo de 0 a NumEntriesInList[ i ] - 1, ambos inclusive, se denomina entrada STRP si lt_ref_pic_flag[ i ][ j ] es igual a 0, y entrada LTRP de lo contrario. Es posible que se haga referencia a una imagen particular tanto en una entrada en RefPicList[ 0 ] como en una entrada en RefPicList[ 1 ]. También es posible que se haga referencia a una imagen particular por más de una entrada en RefPicList[ 0 ] o por más de una entrada en RefPicList[ 1 ]. Las entradas activas en RefPicList[ 0 ] y las entradas activas en RefPicList[ 1 ] se refieren colectivamente a todas las imágenes de referencia que se usarán para la interpredicción de la imagen actual y una o más imágenes que siguen a la imagen actual en el orden de decodificación. Las entradas inactivas en RefPicList[ 0 ] y las entradas inactivas en RefPicList[ 1 ] se refieren colectivamente a todas las imágenes de referencia que no se usarán para la interpredicción de la imagen actual pero se usarán en la interpredicción para una o más imágenes que siguen a la imagen actual en el orden de decodificación. Puede haber una o más entradas en RefPicList[ 0 ] o RefPicList[ 1 ] que sean iguales a "ninguna imagen de referencia" porque las imágenes correspondientes no están presentes en el DPB. Cada entrada inactiva en RefPicList[ 0 ] o RefPicList[ 0 ] que es igual a "ninguna imagen de referencia" debe ignorarse. Se debe inferir una pérdida de imagen no intencional para cada entrada activa en RefPicList[ 0 ] o RefPicList[ 1 ] que es igual a "ninguna imagen de referencia".

Es un requisito de conformidad del flujo de bits que se apliquen las siguientes restricciones: para cada i igual a 0 o 1, NumEntriesInList[ i ] no será menor que NumRefIdxActive[ i ]. La imagen a la que hace referencia cada entrada activa en RefPicList[ 0 ] o RefPicList[ 1 ] estará presente en el DPB y tendrá TemporalId menor o igual que la de la imagen actual. Opcionalmente, se puede especificar además la siguiente restricción: el índice de entrada de cualquier entrada inactiva en RefPicList[ 0 ] o RefPicList[ 1 ] no se usará como índice de referencia para la decodificación de la imagen actual. Opcionalmente, se puede especificar además la siguiente restricción: una entrada inactiva en RefPicList[ 0 ] o RefPicList[ 1 ] no se referirá a la misma imagen que cualquier otra entrada en RefPicList[ 0 ] o RefPicList[ 1 ]. Una entrada STRP en RefPicList[ 0 ] o RefPicList[ 1 ] de un segmento de una imagen y una entrada LTRP en RefPicList[ 0 ] o RefPicList[ 1 ] del mismo segmento o de un segmento diferente de la misma imagen no se referirán a la misma imagen. No se hará referencia a la propia imagen actual por ninguna entrada en RefPicList[ 0 ] o RefPicList[ 1 ]. No habrá ninguna entrada LTRP en RefPicList[ 0 ] o RefPicList[ 1 ] para la que la diferencia entre el PicOrderCntVal de la imagen actual y el PicOrderCntVal de la imagen a la que se refiere la entrada sea mayor o igual a 224. Sea setOfRefPics el conjunto de imágenes únicas a las que hacen referencia todas las entradas en RefPicList[ 0 ] y todas las entradas en RefPicList[ 1 ]. El número de imágenes en setOfRefPics será menor o igual que sps_max_dec_pic_buffering_minus1 y setOfRefPics será el mismo para todos los segmentos de una imagen.

Proceso de decodificación para el marcado de imágenes de referencia.

Este proceso se invoca una vez por imagen, después de la decodificación de una cabecera de segmento y del proceso de decodificación para la construcción de la lista de imágenes de referencia para el segmento, pero antes de la decodificación de los datos del segmento. Este proceso da como resultado que una o más imágenes de referencia en el DPB se marquen como "no usadas como referencia" o "usadas como referencia a largo plazo". Una imagen decodificada en el DPB puede marcarse como "no usada como referencia", "usada como referencia a corto plazo" o "usada como referencia a largo plazo", pero solo una de estas tres en un momento dado durante el funcionamiento del proceso de decodificación. Asignar una de estas marcas a una imagen elimina implícitamente otra de estas marcas cuando proceda. Cuando se hace referencia a una imagen como "usada como referencia", esto se refiere colectivamente a que la imagen se marca como "usada como referencia a corto plazo" o "usada como referencia a largo plazo" (pero no ambas). Cuando la imagen actual es una imagen IRA, todas las imágenes de referencia actualmente en el DPB (si las hay) se marcan como "no usadas como referencia". Los STRP se identifican por los LSB de Log2( MaxStPicOrderCntLsb ) de sus valores PicOrderCntVal. Los LTRP se identifican por los LSB de Log2( MaxLtPicOrderCntLsb ) de sus valores PicOrderCntVal.

Esta sección describe otra realización alternativa de la descripción. La descripción es relativa al último WD de VVC (es decir, solo se describe el delta relativo al último WD de VVC en JVET-K1001-v1, mientras que los textos en el último WD de VVC que no se mencionan a continuación se aplican como son). Esta realización alternativa se resume de la siguiente manera: las estructuras de lista de imágenes de referencia se señalizan solo en cabeceras de segmentos. No se hace distinción entre imágenes de referencia a corto y largo plazo. Todas las imágenes de referencia se denominan solo imágenes de referencia. Las imágenes de referencia se identifican por sus LSB de POC, que se representarán por un número de bits que es diferente del número de bits usados para representar los LSB de POC señalizados en cabeceras de segmento para derivación de valores de POC.

Abreviaturas: Se aplica el texto de la cláusula 4 de WD de VVC.

Sintaxis de cabecera de unidad NAL.

Sintaxis RBSP del conjunto de parámetros de secuencia.

Sintaxis RBSP del conjunto de parámetros de imagen.

Sintaxis de cabecera de segmento.

Sintaxis de la estructura de lista de imágenes de referencia.

Semántica de cabecera de unidad NAL.

Tabla 7-1 - Códigos de tipo de unidad NAL y clases de tipo de unidad NAL

Un nuh_temporal_id_plus1 menos 1 especifica un identificador temporal para la unidad NAL. El valor de nuh_temporal_id_plus1 no será igual a 0. La variable TemporalId se especifica de la siguiente manera:

TemporalId= nuh_temporal_id_plusl - 1

Cuando nal_unit_type es igual a IRAP_NUT, el segmento codificado pertenece a una imagen IRAP, y TemporalId será igual a 0. El valor de TemporalId será el mismo para todas las unidades NAL de VCL de una unidad de acceso. El valor de TemporalId de una imagen codificada o de una unidad de acceso es el valor de TemporalId de las unidades NAL de VCL de la imagen codificada o de la unidad de acceso. El valor de TemporalId para las unidades NAL no VCL se limita de la siguiente manera:

Si nal_unit type es igual a SPS_NUT, TemporalId será igual a 0 y el TemporalId de la unidad de acceso que contiene la unidad NAL será igual a 0. De lo contrario, si nal_unit_type es igual a EOS_NUT o EOB_n Ut , TemporalId será igual a 0. De lo contrario, TemporalId será mayor o igual al TemporalId de la unidad de acceso que contiene la unidad NAL. Cuando la unidad NAL es una unidad NAL no<v>C<l>, el valor de TemporalId es igual al valor mínimo de los valores de TemporalId de todas las unidades de acceso a las que se aplica la unidad NAL no VCL. Cuando nal_unit_type es igual a PPS_NUT, TemporalId es mayor o igual que TemporalId de la unidad de acceso que contiene, ya que todos los conjuntos de parámetros de imagen (PPS) se incluirán al comienzo de un flujo de bits, en donde la primera imagen codificada tiene TemporalId igual a 0. Cuando nal_unit_type es igual a PREFIX_SEI_NUT o SUFFIX_SEI_NUT, TemporalId será mayor o igual que TemporalId de la unidad de acceso que contiene, ya que una unidad NAL de SEI contiene información que se aplica a un subconjunto de flujo de bits que incluye unidades de acceso para las que los valores de TemporalId son mayores que el TemporalId de la unidad de acceso que contiene la unidad NAL de SEI. nuh_reserved_zero_7bits será igual a '0000000'. Otros valores de nuh_reserved_zero_7bits serán especificados en el futuro por la ITU-T | ISO/IEC. Los decodificadores ignorarán (es decir, eliminarán del flujo de bits y descartarán) las unidades NAL con valores de nuh_reserved_zero_7bits no iguales a '0000000'.

Semántica RBSP del conjunto de parámetros de secuencia.

MaxPicOrderClllLsb = 2' ^Jiiaxjc.order^aJsbjninû 4 )

El valor de log2_max_pic_order_cnt_lsb_minus4 estará en el intervalo de 0 a 12, ambos inclusive. sps_max_dec_pic_buffering_minus1 más 1 especifica el tamaño máximo requerido del búfer de imágenes decodificadas para la CVS en unidades de búferes de almacenamiento de imágenes. El valor de sps_max_dec_pic_buffering _minus1 estará en el intervalo de 0 a MaxDpbSize - 1, ambos inclusive, donde MaxDpbSize es como se especifica en otro lugar. additional_ref_poc_lsb especifica el valor de la variable MaxRefPicOrderCntLsb que se usa en el proceso de decodificación para las listas de imágenes de referencia de la siguiente manera:

MaxRefPicOrderCntLsb — 2'<I0g2_ in a x j3ic_0rder_cntjsb_minus4 4>+<additional_ref_poc_lsb)>

El valor de additional_ref_poc_lsb estará en el intervalo 0 y 32 - log2_max_pic_order_cnt_lsb_minus4 - 4, ambos inclusive.

Semántica RBSP del conjunto de parámetros de imagen.

Semántica de cabecera de segmento.

Tabla 7-3 - Asociación de nombres a slice_type

Cuando nal_unit_type es igual a IRAP_NUT, es decir, la imagen es una imagen IRAP, slice_type será igual a 2.... slice_pic_order_cnt_lsb especifica el módulo de recuento de orden de imagen MaxPicOrderCntLsb para la imagen actual. La longitud del elemento de sintaxis slice_pic_order_cnt_lsb es log2_max_pic_order_cnt_lsb_minus4 4 bits. El valor de slice_pic_order_cnt_lsb estará en el intervalo de 0 a MaxPicOrderCntLsb - 1, ambos inclusive. Cuando slice_pic_order_cnt_lsb no está presente, se infiere que slice_pic_order_cnt_lsb es igual a 0. num_ref_idx_active_override_flag igual a 1 especifica que el elemento de sintaxis num_ref_idx_active _minus1[ 0 ] está presente para los segmentos P y B y que el elemento de sintaxis num_ref_idx_active_minus1[ 1 ] está presente para los segmentos B. num_ref_idx_active_override_flag igual a 0 especifica que los elementos de sintaxis num_ref_idx_active_minus1[ 0 ] y idx_active_minus1 [ 1 ] no están presentes. num_ref_idx_active_minus1[ i ], cuando está presente, especifica el valor de la variable NumRefIdxActive[ i ] de la siguiente manera:

NumRefldx Active [ i ] = num_ref_idx_active_minusl[ i ] 1

Semántica de estructura de lista de imágenes de referencia.

La estructura de sintaxis ref_pic_list_struct( listIdx ) estará presente en una cabecera de segmento. Cuando está presente en una cabecera de segmento, la estructura de sintaxis ref_pic_list_struct( listIdx ) especifica la lista de imágenes de referencia listIdx de la imagen actual (la imagen que contiene el segmento). num_ref_entries[ listIdx ] especifica el número de entradas en la estructura de sintaxis ref_pic_list_struct( listIdx ). La variable NumEntriesInList[ listIdx ] se deriva de la siguiente manera:

NumRefPicEntriesInRpl[ listIdx ] = num ref entries [ listIdx ]

El valor de NumRefPicEntries[ listIdx ] estará en el intervalo de 0 a sps_max_dec_pic_buffering_minus1, ambos inclusive. poc_ref_lsb[ listIdx ][ i ] especifica el valor del módulo de recuento de orden de imagen MaxRefPicOrderCntLsb de la imagen a la que se refiere la i-ésima entrada en la estructura de sintaxis ref_pic_list_struct( listIdx ). La longitud del elemento de sintaxis poc_lsb_lt[ listIdx ][ i ] es Log2( MaxRefPicOrderCntLsb ) bits.

Se analiza el proceso de decodificación.

Proceso general de decodificación.

El proceso de decodificación funciona de la siguiente manera para la imagen actual CurrPic: la decodificación de las unidades NAL se especifica a continuación. Los procesos siguientes especifican los siguientes procesos de decodificación usando elementos de sintaxis en la capa de cabecera de segmento y superiores: se derivan variables y funciones relacionadas con el recuento de orden de imagen. Esto debe invocarse solo para el primer segmento de una imagen. Al comienzo del proceso de decodificación para cada segmento de una imagen no IRAP, se invoca el proceso de decodificación para la construcción de listas de imágenes de referencia para derivación de la lista 0 de imágenes de referencia (RefPicList[ 0 ]) y la lista 1 de imágenes de referencia (RefPicList[ 1 ]). Se invoca el proceso de decodificación para el marcado de imágenes de referencia, en donde las imágenes de referencia se marcan como "no usadas como referencia". Esto debe invocarse solo para el primer segmento de una imagen. Se invocan los procesos de decodificación para codificar unidades de árbol, escalar, transformar, filtrar en bucle, etc. Después de que se hayan decodificado todos los segmentos de la imagen actual, la imagen decodificada actual se marca como "usada como referencia".

Proceso de decodificación de la unidad NAL.

Proceso de decodificación de segmentos.

Proceso de decodificación para el recuento de orden de imagen.

if( ( slice_pic_order_cnt_lsb < prevPicOrderCntLsb ) &&

else if( (slice_pic_order_cnt_lsb > prevPicOrderCntLsb ) &&

else

PicOrderCntMsb = prevPicOrderCntMsb

PicOrderCntVal se deriva de la siguiente manera:

PicOrderCntVal = PicOrderCntMsb slice pie order cnt lsb

Todas las imágenes IRAP tendrán PicOrderCntVal igual a 0, ya que slice_pic_order_cnt_lsb se infiere que es 0 para las imágenes IRAP y prevPicOrderCntLsb y prevPicOrderCntMsb se establecen ambos igual a 0. El valor de PicOrderCntVal estará en el intervalo de -231 a 231 - 1, ambos inclusive. En una CVS, los valores de PicOrderCntVal para dos imágenes codificadas cualesquiera no serán los mismos. En cualquier momento durante el proceso de decodificación, los valores de PicOrderCntVal & (MaxRefPicOrderCntLsb - 1 ) para dos imágenes de referencia cualesquiera en el DPB no serán los mismos.

La función PicOrderCnt( picX ) se especifica de la siguiente manera:

PicOrderCnt( picX ) = PicOrderCntVal de la imagen picX

La función DiffPicOrderCnt( picA, picB ) se especifica de la siguiente manera:

DifEPicOrderCnt( picA, picB ) = PicOrderCnt( picA) - PicOrderCnt( picB )

El flujo de bits no contendrá datos que den como resultado valores de DiffPicOrderCnt( picA, picB ) usados en el proceso de decodificación que no estén en el intervalo de -215 a 215 - 1, ambos inclusive. Sea X la imagen actual e Y y Z sean otras dos imágenes en la misma CVS, se considera que Y y Z están en la misma dirección de orden de salida de X cuando DiffPicOrderCnt( X, Y ) y DiffPicOrderCnt( X, Z ) son positivos o ambos son negativos.

Este proceso se invoca al principio del proceso de decodificación para cada segmento de una imagen no IRAP. Las imágenes de referencia se abordan a través de índices de referencia. Un índice de referencia es un índice en una lista de imágenes de referencia. Cuando se decodifica un segmento I, no se usa ninguna lista de imágenes de referencia en la decodificación de los datos del segmento. Cuando se decodifica un segmento P, solo se usa la lista 0 de imágenes de referencia (es decir, RefPicList[ 0 ]) en la decodificación de los datos del segmento. Cuando se decodifica un segmento B, tanto la lista 0 de imágenes de referencia como la lista 1 de imágenes de referencia (es decir, RefPicList[ 1 ]) se usan en la decodificación de los datos del segmento. Al comienzo del proceso de decodificación para cada segmento de una imagen no IRAP, se derivan las listas de imágenes de referencia RefPicList[ 0 ] y RefPicList[ 1 ]. Las listas de imágenes de referencia se usan en el marcado de imágenes de referencia o en la decodificación de los datos del segmento. Para un segmento I de una imagen no IRAP que no es el primer segmento de la imagen, RefPicList[ 0 ] y RefPicList[ 1 ] se derivarán para verificar la conformidad del flujo de bits, pero su derivación no es necesaria para la decodificación de la imagen o las imágenes actuales que siguen a la imagen actual en el orden de decodificación. Para un segmento P que no es el primer segmento de una imagen, RefPicList[ 1 ] se derivará para verificar la conformidad del flujo de bits, pero su derivación no es necesaria para la decodificación de la imagen o las imágenes actuales que siguen a la imagen actual en el orden de decodificación. Las listas de imágenes de referencia RefPicList[ 0 ] y RefPicList[ 1 ] se construyen de la siguiente manera:

for( i = 0; i < 2; i ) {

for( j = 0, pocBasc = PicOrderCntVal; j < NumEntriesInList[ i ]; j++) {

if( hay una referencia picA en el DPB con PicOrderCntVal & ( MaxRefPicOrderCntLsb - 1 ) igual a poc_ref_lsb[ i ][ j ] )

RcfPicListf i ][ j ] = picA

el se

RefPicListl i J[ j ) = “ninguna imagen de referencia’’

}

Para cada i igual a 0 o 1, las primeras entradas NumRefIdxActive[ i ] de RefPicList[ i ] se denominan entradas activas de RefPicList[ i ], y las demás entradas de RefPicList[ i ] se denominan entradas inactivas de RefPicList[ i ]. Es posible que se haga referencia a una imagen particular tanto en una entrada en RefPicList[ 0 ] como en una entrada en RefPicList[ 1 ]. También es posible que se haga referencia a una imagen particular por más de una entrada en RefPicList[ 0 ] o por más de una entrada en RefPicList[ 1 ]. Las entradas activas en RefPicList[ 0 ] y las entradas activas en RefPicList[ 1 ] se refieren colectivamente a todas las imágenes de referencia que se usarán para la interpredicción de la imagen actual y una o más imágenes que siguen a la imagen actual en el orden de decodificación. Las entradas inactivas en RefPicList[ 0 ] y las entradas inactivas en RefPicList[ 1 ] se refieren colectivamente a todas las imágenes de referencia que no se usarán para la interpredicción de la imagen actual pero se usarán en la interpredicción para una o más imágenes que siguen a la imagen actual en el orden de decodificación. Puede haber una o más entradas en RefPicList[ 0 ] o RefPicList[ 1 ] que sean iguales a "ninguna imagen de referencia" porque las imágenes correspondientes no están presentes en el DPB. Cada entrada inactiva en RefPicList[ 0 ] o RefPicList[ 0 ] que es igual a "ninguna imagen de referencia" debe ignorarse. Se debe inferir una pérdida de imagen no intencional para cada entrada activa en RefPicList[ 0 ] o RefPicList[ 1 ] que es igual a "ninguna imagen de referencia".

Es un requisito de conformidad del flujo de bits que se apliquen las siguientes restricciones: para cada i igual a 0 o 1, NumEntriesInList[ i ] no será menor que NumRefIdxActive[ i ]. La imagen a la que hace referencia cada entrada activa en RefPicList[ 0 ] o RefPicList[ 1 ] estará presente en el DPB y tendrá TemporalId menor o igual que la de la imagen actual. Opcionalmente, se puede especificar además la siguiente restricción: el índice de entrada de cualquier entrada inactiva en RefPicList[ 0 ] o RefPicList[ 1 ] no se usará como índice de referencia para la decodificación de la imagen actual. Opcionalmente, se puede especificar además la siguiente restricción: una entrada inactiva en RefPicList[ 0 ] o RefPicList[ 1 ] no se referirá a la misma imagen que cualquier otra entrada en RefPicList[ 0 ] o RefPicList[ 1 ]. No se hará referencia a la propia imagen actual por ninguna entrada en RefPicList[ 0 ] o RefPicList[ 1 ]. No habrá ninguna entrada en RefPicList[ 0 ] o RefPicList[ 1 ] para la que la diferencia entre el PicOrderCntVal de la imagen actual y el PicOrderCntVal de la imagen a la que se refiere la entrada sea mayor o igual a 224. Sea setOfRefPics el conjunto de imágenes únicas a las que hacen referencia todas las entradas en RefPicList[ 0 ] y todas las entradas en RefPicList[ 1 ]. El número de imágenes en setOfRefPics será menor o igual que sps_max_dec_pic_buffering_minus1 y setOfRefPics será el mismo para todos los segmentos de una imagen.

Proceso de decodificación para el marcado de imágenes de referencia.

Este proceso se invoca una vez por imagen, después de la decodificación de una cabecera de segmento y del proceso de decodificación para la construcción de la lista de imágenes de referencia para el segmento, pero antes de la decodificación de los datos del segmento. Este proceso da como resultado que una o más imágenes de referencia en el DPB se marquen como "no usadas como referencia". Una imagen decodificada en el DPB puede marcarse como "no usada como referencia" o "usada como referencia", pero solo una de estas dos en un momento dado durante el funcionamiento del proceso de decodificación. Asignar una de estas marcas a una imagen elimina implícitamente otra de estas marcas cuando proceda. Cuando la imagen actual es una imagen IRAP, todas las imágenes de referencia actualmente en el DPB (si las hay) se marcan como "no usadas como referencia". Las imágenes de referencia en el DPB se identifican por los LSB de Log2( MaxRefPicOrderCntLsb ) de sus valores PicOrderCntVal. Cada imagen de referencia en el DPB a la que no se hace referencia en ninguna entrada de RefPicList[ 0 ] o RefPicList[ 1 ] está marcada como "no usada como referencia".

Otra realización alternativa más.

Esta sección describe una realización alternativa al enfoque especificado anteriormente que se denomina "señalizar siempre de listas de imágenes de referencia en cabeceras de segmento con diferenciación entre imágenes de referencia a corto y largo plazo". En esta realización alternativa, en la cabecera de segmento, se señalizará un ciclo de MSB del POC para cada entrada LTRP, de manera similar como en HEVC o como en los enfoques descritos anteriormente, y se elimina la siguiente restricción: en cualquier momento durante el proceso de decodificación, los valores de PicOrderCntVal & ( MaxLtPicOrderCntLsb - 1 ) para dos imágenes de referencia cualesquiera en el DPB no serán los mismos.

La FIG. 6 es un diagrama esquemático de un dispositivo 600 de codificación de vídeo (por ejemplo, un codificador 20 de vídeo o un decodificador 30 de vídeo) según una realización de la descripción. El dispositivo 600 de codificación de vídeo es adecuado para implementar las realizaciones descritas como se describen en la presente memoria. El dispositivo 600 de codificación de vídeo comprende puertos 610 de entrada y unidades de recepción (Rx) 620 para recibir datos; un procesador, unidad lógica o unidad de procesamiento central (CPU) 630 para procesar los datos; unidades transmisoras (Tx) 640 y puertos 650 de salida para transmitir los datos; y una memoria 660 para almacenar los datos. El dispositivo 600 de codificación de vídeo también comprende componentes ópticos a eléctricos (OE) y componentes eléctricos a ópticos (EO) acoplados a los puertos 610 de entrada, a las unidades 620 de recepción, a las unidades 640 de transmisión y a puertos 650 de salida para la salida o entrada de señales ópticas o eléctricas.

El procesador 630 se implementa por hardware y software. El procesador 630 se implementará como uno o más chips de CPU, núcleos (por ejemplo, como un procesador multinúcleo), una matriz de puertas programares en campo (FPGA), circuitos integrados de aplicación específica (ASIC), y procesadores de señales digitales (DSP). El procesador 630 está en comunicación con los puertos 610 de entrada, las unidades 620 de recepción, las unidades 640 de transmisión, los puertos 650 de salida y la memoria 660. El procesador 630 comprende un módulo 670 de codificación. El módulo 670 de codificación implementa las realizaciones descritas anteriormente. Por ejemplo, el módulo 670 de codificación implementa, procesa, prepara o proporciona las diversas funciones de red. La inclusión del módulo 670 de codificación por lo tanto proporciona una mejora sustancial a la funcionalidad del dispositivo 600 de codificación de vídeo y efectúa una transformación del dispositivo 600 de codificación de vídeo a un estado diferente. De manera alternativa, el módulo 670 de codificación se implementa como instrucciones almacenadas en la memoria 660 y ejecutadas por el procesador 630.

El dispositivo 600 de codificación de vídeo también incluye dispositivos 680 de entrada y/o salida (E/S) para comunicar datos hacia y desde un usuario. Los dispositivos 680 de E/S pueden incluir dispositivos de salida, tales como una pantalla para visualizar datos de vídeo, altavoces para emitir datos de audio, etc. Los dispositivos 680 de E/S también pueden incluir dispositivos de entrada, tales como un teclado, ratón, bola de seguimiento, etc. , y/o interfaces correspondientes para interactuar con tales dispositivos de salida.

La memoria 660 comprende uno o más discos, unidades de cinta y unidades de estado sólido y se usará como un dispositivo de almacenamiento de datos de desborde (overflow), para almacenar programas cuando tales programas se seleccionan para su ejecución y para almacenar instrucciones y datos que se leen durante la ejecución del programa. La memoria 660 será volátil y/o no volátil y será de solo lectura (ROM), memoria de acceso aleatorio (RAM), memoria ternaria de contenido direccionable (TCAM), y/o memoria estática de acceso aleatorio (SRAM).

La FIG. 7 es un diagrama esquemático de una realización de un medio 700 de codificación. En una realización, los medios 700 de codificación se implementan en un dispositivo 702 de codificación de vídeo (por ejemplo, un codificador 20 de vídeo o un decodificador 30 de vídeo). El dispositivo 702 de codificación de vídeo incluye medios 701 de recepción. Los medios 701 de recepción están configurados para recibir una imagen para codificar o para recibir un flujo de bits para decodificar. El dispositivo 702 de codificación de vídeo incluye medios 707 de transmisión acoplados a los medios 701 de recepción. Los medios 707 de transmisión están configurados para transmitir el flujo de bits a un decodificador o para transmitir una imagen decodificada a un medio de visualización (por ejemplo, uno de los dispositivos 680 de E/S).

El dispositivo 702 de codificación de vídeo incluye unos soportes 703 de almacenamiento. Los soportes 703 de almacenamiento están acoplados a al menos uno de los medios 701 de recepción o a los medios 707 de transmisión. Los soportes 703 de almacenamiento están configurados para almacenar instrucciones. El dispositivo 702 de codificación de vídeo también incluye medios 705 de procesamiento. Los medios 705 de procesamiento están acoplados a los soportes 703 de almacenamiento. Los medios 705 de procesamiento están configurados para ejecutar las instrucciones almacenadas en los soportes 703 de almacenamiento para realizar los métodos descritos en la presente memoria.

Claims

REIVINDICACIONES 1. Un método para decodificar un flujo de bits de vídeo codificado implementado por un decodificador de vídeo para su uso en la decodificación de vídeo basándose en el estándar VVC, caracterizado por que, el método comprende: obtener una estructura de sintaxis de lista de imágenes de referencia, ref_pic_list_struct (listIdx, rplsIdx), para un segmento actual del flujo de bits de vídeo codificado, en donde ref_pic_list_struct (listIdx, rplsIdx) se define como

en donde ref_pic_list_struct (listIdx, rplsIdx) contiene un número de entradas, y ref_pic_list_struct (listIdx, rplsIdx) comprende un primer parámetro listIdx y un segundo parámetro rplsIdx, en donde rplsIdx especifica un índice de una estructura de sintaxis de lista de imágenes de referencia, listIdx tiene un valor para especificar una lista de imágenes de referencia; en donde el valor de listIdx es igual a 0 o 1, en donde la estructura de sintaxis de lista de imágenes de referencia se representa en un SPS y especifica un candidato para lista de imágenes de referencia a corto plazo listIdx, y la imagen actual se refiere a cada imagen que 1) tiene uno o más segmentos que contienen ref_pic_list_idx[ listIdx ] igual a un índice en la lista de las estructuras de sintaxis ref_pic_list_struct( listIdx, rplsIdx ) incluidas en el SPS, y 2) está en una CVS que tiene el SPS como el SPS activo, num_strp_entries[ listIdx ][ rplsIdx ] especifica el número de entradas STRP en la estructura de sintaxis ref_pic_list_struct( listIdx, rplsIdx ), delta_poc_st[ listIdx ][ rplsIdx ][ i ] especifica la diferencia entre los valores de recuento de orden de imagen de la imagen actual y la imagen a la que se refiere i-ésima cuando la entrada i-ésima es la primera entrada STRP en la estructura sintáctica ref_pic_list_struct( listIdx, rplsIdx ), o delta_poc_st[ listIdx ][ rplsIdx ][ i ] especifica la diferencia entre los valores de recuento de orden de imagen de las imágenes a las que hace referencia la entrada i-ésima y la entrada STRP anterior en la estructura de sintaxis ref_pic_list_struct( listIdx, rplsIdx ) cuando la entrada i-ésima es una entrada STRP pero no la primera entrada STRP en la estructura de sintaxis ref_pic_list_struct( listIdx, rplsIdx ); obtener un número predeterminado de entradas activas en una lista de imágenes de referencia para el segmento actual; construir una lista de imágenes de referencia para el segmento actual, en donde la lista de imágenes de referencia contiene un número de entradas activas y un número de entradas inactivas; establecer el número de entradas activas en la lista de imágenes de referencia igual al número de entradas de la estructura de sintaxis de lista de imágenes de referencia cuando el número predeterminado de entradas activas en la lista de imágenes de referencia sea mayor que el número de entradas en la estructura de sintaxis de lista de imágenes de referencia; obtener, basándose en al menos una entrada activa de la lista de imágenes de referencia, al menos un bloque reconstruido del segmento actual, obtener un indicador de sustitución de la cabecera del segmento, en donde el establecimiento del número de entradas activas en la lista de imágenes de referencia igual al número de entradas en la estructura de lista de imágenes de referencia se realiza a condición de que un valor del indicador de sustitución sea falso, en donde un orden de entradas en la estructura de sintaxis de lista de imágenes de referencia es el mismo que un orden de imágenes de referencia correspondientes en la lista de imágenes de referencia, en donde al menos una entrada activa de la lista de imágenes de referencia se usa para la interpredicción de al menos un bloque reconstruido, en donde las entradas inactivas no se usan para la interpredicción de la imagen actual.
2. El método de cualquiera de la reivindicación 1, en donde el segmento actual es un segmento P o un segmento B.
3. Un decodificador que comprende circuitos de procesamiento para llevar a cabo el método según cualquiera de las reivindicaciones 1 o 2.
4. Un producto de programa informático que comprende código de programa para realizar el método según cualquiera de las reivindicaciones 1 a 2 cuando se ejecuta en un ordenador o un procesador.