ES2971451T3

ES2971451T3 - Codificación y decodificación de datos de imágenes

Info

Publication number: ES2971451T3
Application number: ES18797035T
Authority: ES
Inventors: Stephen Mark Keating; Karl James Sharman; Magali Kimlee Miri Philippe
Original assignee: Sony Group Corp
Current assignee: Sony Group Corp
Priority date: 2017-10-27
Filing date: 2018-10-24
Publication date: 2024-06-05
Anticipated expiration: 2038-10-24
Also published as: WO2019081926A1; GB201717683D0; EP4340358A3; US20230217020A1; CN117278755A; EP3701717B1; GB2567860A; EP3701717A1; CN111164975A; US12489887B2; US20200260074A1; PL3701717T3; CN111164975B; EP4340358A2

Abstract

Un aparato de codificación de imágenes comprende un controlador configurado para seleccionar, de un conjunto de direcciones de predicción, un conjunto de direcciones de predicción candidatas como un subconjunto del conjunto de direcciones de predicción, para una región de imagen actual de una imagen actual en dependencia de una o más propiedades. de un grupo de muestras de referencia de la imagen actual aplicable a la región de la imagen actual; y un predictor intraimagen configurado para predecir muestras de la región de la imagen actual con respecto a una o más del grupo de muestras de referencia de la misma imagen de acuerdo con una dirección de predicción entre la muestra actual y una posición de referencia entre las muestras de referencia; en el que el predictor intraimagen está configurado para seleccionar la dirección de predicción para la región de la imagen actual del conjunto de direcciones de predicción candidatas. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN

Codificación y decodificación de datos de imágenes

ANTECEDENTES

Campo

Esta divulgación se refiere a la codificación y decodificación de datos de imágenes.

Descripción de la técnica relacionada

La descripción de "antecedentes" proporcionada en el presente documento tiene el propósito de presentar en general el contexto de la divulgación. El trabajo de los inventores actualmente nombrados, en la medida en que se describe en esta sección de antecedentes, así como los aspectos de la descripción que de otro modo no calificarían como estado de la técnica en el momento de la presentación, no se admiten expresa ni implícitamente como estado de la técnica frente a la presente divulgación.

Existen varios sistemas de codificación y decodificación de datos de vídeo que implican transformar datos de vídeo en una representación del dominio de la frecuencia, cuantificar los coeficientes del dominio de la frecuencia y, a continuación, aplicar alguna forma de codificación por entropía a los coeficientes cuantificados. Esto puede lograr la compresión de los datos de vídeo. Se aplica una técnica de decodificación o descompresión correspondiente para recuperar una versión reconstruida de los datos de vídeo originales.

Los códecs de vídeo actuales (codificadores-decodificadores), tales como los usados en la codificación de vídeo avanzada (AVC) H.264/MPEG-4, logran la compresión de datos principalmente codificando únicamente las diferencias entre fotogramas de vídeo sucesivos. Estos códecs usan una matriz regular de los llamados macrobloques, cada uno de los cuales se usa como región de comparación con un macrobloque correspondiente en un fotograma de vídeo anterior, y la región de la imagen dentro del macrobloque a continuación se codifica de acuerdo con el grado de movimiento encontrado entre los macrobloques actuales y anteriores correspondientes en la secuencia de vídeo, o entre macrobloques vecinos dentro de un único fotograma de la secuencia de vídeo.

La codificación de vídeo de alta eficiencia (HEVC), también conocida como H.265 o MPEG-H Parte 2, es una propuesta para suceder a H.264/MPEG-4 AVC. Está destinado a que HEVC mejore la calidad del vídeo y duplique la relación de compresión de datos en comparación con H.264, y que sea escalable desde una resolución de 128 x 96 a 7680 x 4320 píxeles, aproximadamente equivalente a tasas de bits que varían desde 128 kbit/s a 800 Mbits/s.

Las disposiciones propuestas previamente se divulgan por WO 2016/159631 A1 (miembro de la familia en lengua inglesa US 2018/255304 A1) y US 2013/259128 A1.

SUMARIO

La presente divulgación aborda o mitiga los problemas que surgen de este procesamiento.

Los aspectos y características respectivos de la presente divulgación se definen en las reivindicaciones adjuntas. Debe entenderse que, tanto la descripción general anterior como la siguiente descripción detallada son ilustrativas, pero no restrictivas, de la presente tecnología.

BREVE DESCRIPCIÓN DE LOS DIBUJOS

Se obtendrá fácilmente una apreciación más completa de la divulgación y muchas de las ventajas que la misma conlleva a medida que se comprenda mejor con referencia a la siguiente descripción detallada cuando se considere en relación con los dibujos adjuntos, en donde:

La Figura 1 ilustra esquemáticamente un sistema de transmisión y recepción de datos de audio/vídeo (A/V) que usa compresión y descompresión de datos de vídeo;

La Figura 2 ilustra esquemáticamente un sistema de visualización de vídeo que usa descompresión de datos de vídeo;

La Figura 3 ilustra esquemáticamente un sistema de almacenamiento de audio/vídeo que usa compresión y descompresión de datos de vídeo;

La Figura 4 ilustra esquemáticamente una cámara de vídeo que usa compresión de datos de vídeo; Las Figuras 5 y 6 ilustran esquemáticamente medios de almacenamiento;

La Figura 7 proporciona una visión general esquemática de un aparato de compresión y descompresión de datos de vídeo;

La Figura 8 ilustra esquemáticamente un predictor;

La Figura 9 ilustra esquemáticamente una imagen parcialmente codificada;

La figura 10 ilustra esquemáticamente un conjunto de posibles direcciones de intra-p redicción;

La Figura 11 ilustra esquemáticamente un conjunto de modos de predicción;

La Figura 12 ilustra esquemáticamente otro conjunto de modos de predicción;

La Figura 13 ilustra esquemáticamente un proceso de intra-predicción;

Las Figuras 14 y 15 ilustran esquemáticamente un proceso de proyección de muestra de referencia;

La Figura 16 ilustra esquemáticamente un predictor;

Las Figuras 17 y 18 ilustran esquemáticamente ejemplos de direcciones de predicción;

Las Figuras 19 y 20 ilustran esquemáticamente el uso de muestras de referencia proyectadas;

Las Figuras 21 y 22 ilustran esquemáticamente modos de predicción rectos y curvos respectivamente; La Figura 23 ilustra esquemáticamente una parte de un intra predictor;

Las Figuras 24 y 25 ilustran esquemáticamente subconjuntos de modos de predicción;

Las Figuras 26 a 28 ilustran esquemáticamente conjuntos candidatos de modos de predicción;

Las Figuras 29 y 30 ilustran esquemáticamente operaciones de un controlador;

La Figura 31 ilustra esquemáticamente el uso de los modos más probables;

La Figura 32 ilustra esquemáticamente circuitería de codificación;

La Figura 33 ilustra esquemáticamente circuitería de decodificación;

Las Figuras 34 a 37 son diagramas de flujo esquemáticos que ilustran los métodos respectivos;

La Figura 38 ilustra una imagen distorsionada ilustrativa; y

Las Figuras 39a y 39b ilustran esquemáticamente conjuntos de modos de predicción.

DESCRIPCIÓN DE LAS REALIZACIONES PREFERIDAS

Haciendo referencia ahora a los dibujos, se proporcionan las Figuras 1-4 para dar ilustraciones esquemáticas de aparatos o sistemas que hacen uso del aparato de compresión y/o descompresión que se describirá a continuación en relación con realizaciones de la presente tecnología.

Todos los aparatos de compresión y/o descompresión de datos que se describirán a continuación pueden implementarse en hardware, en software que se ejecuta en un aparato de procesamiento de datos de propósito general tal como un ordenador de propósito general, como hardware programable tal como un circuito integrado de específico de la aplicación (ASIC) o matriz de puertas programables en campo (FPGA) o como combinaciones de estos. En los casos donde las realizaciones se implementen mediante software y/o firmware, se apreciará que dicho software y/o firmware, y los medios de almacenamiento de datos no transitorios mediante los que se almacena o proporciona tal software y/o firmware, se consideran como realizaciones de la presente tecnología.

La Figura 1 ilustra esquemáticamente un sistema de transmisión y recepción de datos de audio/vídeo que usa compresión y descompresión de datos de vídeo.

Una señal de entrada de audio/vídeo 10 se suministra a un aparato de compresión de datos de vídeo 20 que comprime al menos el componente de vídeo de la señal de audio/vídeo 10 para su transmisión a lo largo de una ruta de transmisión 30, tal como un cable, una fibra óptica, un enlace inalámbrico o similares. La señal comprimida se procesa por un aparato de descompresión 40 para proporcionar una señal de audio/vídeo de salida 50. Para la ruta de retorno, un aparato de compresión 60 comprime una señal de audio/vídeo para su transmisión a lo largo de la ruta de transmisión 30 a un aparato de descompresión 70.

Por lo tanto, el aparato de compresión 20 y el aparato de descompresión 70 pueden formar un nodo de un enlace de transmisión. El aparato de descompresión 40 y el aparato de descompresión 60 pueden formar otro nodo del enlace de transmisión. Por supuesto, en los casos donde que el enlace de transmisión sea unidireccional, únicamente uno de los nodos requeriría un aparato de compresión y el otro nodo únicamente requeriría un aparato de descompresión.

La Figura 2 ilustra esquemáticamente un sistema de visualización de vídeo que usa descompresión de datos de vídeo. En particular, una señal de audio/vídeo comprimida 100 se procesa por un aparato de descompresión 110 para proporcionar una señal descomprimida que puede visualizarse en una pantalla 120. El aparato de descompresión 110 podría implementarse como parte integral de la pantalla 120, por ejemplo, estando provisto dentro de la misma carcasa que el dispositivo de visualización. Como alternativa, el aparato de descompresión 110 puede proporcionarse como (por ejemplo) un denominado decodificador de sobremesa (STB), teniendo en cuenta que la expresión "de sobremesa" no implica un requisito para que la caja esté ubicada en ninguna orientación o posición particular con respecto a la pantalla 120; es simplemente un término usado en la técnica para indicar un dispositivo que se puede conectar a una pantalla como dispositivo periférico.

La Figura 3 ilustra esquemáticamente un sistema de almacenamiento de audio/vídeo que usa compresión y descompresión de datos de vídeo. Una señal de audio/vídeo de entrada 130 se suministra a un aparato de compresión 140 que genera una señal comprimida para su almacenamiento mediante un dispositivo de almacenamiento 150 tal como un dispositivo de disco magnético, un dispositivo de disco óptico, un dispositivo de cinta magnética, un dispositivo de almacenamiento de estado sólido tal como una memoria de semiconductores u otro dispositivo de almacenamiento. Para la reproducción, los datos comprimidos se leen desde el dispositivo de almacenamiento 150 y se pasan a un aparato de descompresión 160 para su descompresión para proporcionar una señal de audio/vídeo de salida 170.

Se apreciará que, la señal comprimida o codificada y un medio de almacenamiento tal como un medio de almacenamiento no transitorio legible por máquina, que almacena esa señal, se consideran realizaciones de la presente tecnología.

La Figura 4 ilustra esquemáticamente una cámara de vídeo que usa compresión de datos de vídeo. En la Figura 4, un dispositivo de captura de imágenes 180, tal como un sensor de imagen de dispositivo de carga acoplada (CCD) y electrónica de control y lectura asociada, genera una señal de vídeo que se pasa a un aparato de compresión 190. Un micrófono (o varios micrófonos) 200 genera una señal de audio para pasar al aparato de compresión 190. El aparato de compresión 190 genera una señal de audio/vídeo comprimida 210 para que se almacene y/o transmita (mostrado genéricamente como una etapa esquemática 220).

Las técnicas que se describirán a continuación se refieren principalmente a la compresión y descompresión de datos de vídeo. Se apreciará que, se pueden usar muchas técnicas existentes para la compresión de datos de audio junto con las técnicas de compresión de datos de vídeo que se describirán, para generar una señal de audio/vídeo comprimida. Por consiguiente, no se proporcionará un análisis separado sobre la compresión de datos de audio. También se apreciará que, la tasa de datos asociada con los datos de vídeo, en particular los datos de vídeo con calidad de difusión, es generalmente mucho mayor que la tasa de datos asociada con los datos de audio (ya sea comprimidos o sin comprimir). Por lo tanto, se apreciará que los datos de audio no comprimidos podrían acompañar a los datos de vídeo comprimidos para formar una señal de audio/vídeo comprimida. Se apreciará además que, aunque los presentes ejemplos (mostrados en las Figuras 1-4) se refieren a datos de audio/vídeo, las técnicas que se describirán a continuación pueden encontrar uso en un sistema que simplemente trata (es decir, comprime, descomprime, almacena, muestra y/o transmite) datos de vídeo. Es decir, las realizaciones pueden aplicarse a la compresión de datos de vídeo sin tener necesariamente ningún manejo de datos de audio asociado.

Por lo tanto, la Figura 4 proporciona un ejemplo de un aparato de captura de vídeo que comprende un sensor de imagen y un aparato de codificación del tipo que se analizará a continuación. Por lo tanto, la figura 2 proporciona un ejemplo de un aparato de decodificación del tipo que se analizará a continuación y una pantalla en la que se emiten las imágenes decodificadas.

Una combinación de las Figuras 2 y 4 puede proporcionar un aparato de captura de vídeo que comprende un sensor de imagen 180 y un aparato de codificación 190, un aparato de decodificación 110 y una pantalla 120 a la que se emiten las imágenes decodificadas.

Las Figuras 5 y 6 ilustran esquemáticamente medios de almacenamiento, que almacenan (por ejemplo) los datos comprimidos generados por el aparato 20, 60, los datos comprimidos introducidos al aparato 110 o los medios o etapas de almacenamiento 150, 220. La Figura 5 ilustra esquemáticamente un medio de almacenamiento en disco tal como un disco magnético u óptico, y la Figura 6 ilustra esquemáticamente un medio de almacenamiento de estado sólido tal como una memoria flash. Obsérvese que, las Figuras 5 y 6 también pueden proporcionar ejemplos de medios de almacenamiento legibles por máquina no transitorios que almacenan software informático que, cuando se ejecuta por un ordenador, hace que el ordenador lleve a cabo uno o más de los métodos que se analizarán a continuación.

Por lo tanto, las disposiciones anteriores proporcionan ejemplos de aparatos de almacenamiento, captura, transmisión o recepción de vídeo que incorporan cualquiera de las presentes técnicas.

La Figura 7 proporciona una visión general esquemática de un aparato de compresión y descompresión de datos de vídeo.

Un controlador 343 controla la operación general del aparato y, en particular, cuando se hace referencia a un modo de compresión, controla procesos de codificación de prueba actuando como un selector para seleccionar diversos modos de funcionamiento tales como tamaños y formas de bloque, y si los datos de vídeo han de codificarse sin pérdidas o de otra manera. El controlador se considera parte del codificador de imágenes o del decodificador de imágenes (según sea el caso). Se suministran imágenes sucesivas de una señal de vídeo de entrada 300 a un sumador 310 y a un predictor de imagen 320. El predictor de imagen 320 se describirá a continuación con más detalle con referencia a la Figura 8. El codificador o decodificador de imágenes (según sea el caso) más el predictor de intraimagen de la Figura 8 pueden usar características del aparato de la Figura 7. Sin embargo, esto no significa que el codificador o decodificador de imágenes requiera necesariamente todas las características de la Figura 7.

De hecho, el sumador 310 realiza una operación de resta (suma negativa), en la que recibe la señal de vídeo de entrada 300 en una entrada "+" y la salida del predictor de imagen 320 en una entrada "-", de modo que se resta la imagen prevista de la imagen de entrada. El resultado es generar la denominada señal de imagen residual 330 que representa la diferencia entre las imágenes reales y proyectadas.

Una razón por la que se genera una señal de imagen residual es la siguiente. Las técnicas de codificación de datos que se describirán, es decir, las técnicas que se aplicarán a la señal de imagen residual, tienden a funcionar más eficientemente cuando hay menos "energía" en la imagen a codificar. En este punto, el término "eficientemente" se refiere a la generación de una pequeña cantidad de datos codificados; para un nivel de calidad de imagen particular, es deseable (y se considera "eficiente") generar la menor cantidad de datos posible. La referencia a "energía" en la imagen residual se refiere a la cantidad de información contenida en la imagen residual. Si la imagen prevista fuera idéntica a la imagen real, la diferencia entre las dos (es decir, la imagen residual) contendría información cero (energía cero) y sería muy fácil de codificar en una pequeña cantidad de datos codificados. En general, si se puede hacer que el proceso de predicción funcione razonablemente bien de modo que el contenido de la imagen prevista sea similar al contenido de la imagen a codificar, la expectativa es que los datos de la imagen residual contendrán menos información (menos energía) que la imagen de entrada y así será más fácil codificar en una pequeña cantidad de datos codificados.

A continuación, se describirá el resto del aparato que actúa como codificador (para codificar la imagen residual o de diferencia). Los datos de imagen residual 330 se suministran a una unidad o circuitería de transformada 340 que genera una representación de transformada de coseno discreta (DCT) de bloques o regiones de los datos de imagen residual. La técnica de DCT en sí es bien conocida y no se describirá en detalle en este punto. Obsérvese también que, el uso de DCT es únicamente ilustrativo de una disposición ilustrativa. Otras transformadas que podrían usarse incluyen, por ejemplo, la transformada de seno discreta (DST). Una transformada también podría comprender una secuencia o cascada de transformadas individuales, tal como una disposición en la que a una transformada es seguida (ya sea directamente o no) por otra transformada. La elección de la transformada puede determinarse explícitamente y/o depender de la información secundaria usada para configurar el codificador y el decodificador.

La salida de la unidad de transformada 340, es decir, un conjunto de coeficientes de DCT para cada bloque transformado de datos de imagen, se suministra a un cuantificador 350. Se conocen diversas técnicas de cuantificación en el campo de la compresión de datos de vídeo, que van desde una multiplicación sencilla por un factor de escala de cuantificación hasta la aplicación de tablas de búsqueda complicadas bajo el control de un parámetro de cuantificación. El objetivo general es doble. En primer lugar, el proceso de cuantificación reduce el número de valores posibles de los datos transformados. En segundo lugar, el proceso de cuantificación puede aumentar la probabilidad de que los valores de los datos transformados sean cero. Ambos pueden hacer que el proceso de codificación por entropía, que se describirá a continuación, funcione de manera más eficiente al generar pequeñas cantidades de datos de vídeo comprimidos.

Un proceso de exploración de datos se aplica mediante una unidad de exploración 360. El propósito del proceso de exploración es reordenar los datos transformados cuantificados para reunir tantos coeficientes transformados cuantificados distintos de cero como sea posible y, por supuesto, por lo tanto, reunir juntos tantos coeficientes de valor cero como sea posible. Estas características pueden permitir la aplicación eficiente de la denominada codificación por longitud de serie o técnicas similares. Así, el proceso de exploración implica seleccionar coeficientes de los datos transformados cuantificados, y, en particular, de un bloque de coeficientes correspondiente a un bloque de datos de imagen que ha sido transformado y cuantificado, de acuerdo con un "orden de exploración" de modo que (a) todos los coeficientes se seleccionan una vez como parte de la exploración, y (b) la exploración tiende a proporcionar el reordenamiento deseado. Un orden de exploración ilustrativo que puede tender a dar resultados útiles es el llamado orden de exploración diagonal hacia arriba.

Los coeficientes explorados, a continuación, se pasan a un codificador por entropía (EE) 370. De nuevo, pueden usarse varios tipos de codificación por entropía. Dos ejemplos son variantes del sistema llamado CABAC (codificación aritmética binaria adaptativa al contexto) y variantes del sistema llamado CAVLC (codificación aritmética binaria adaptativa al contexto). En términos generales, se considera que CABAC proporciona una mayor eficiencia y, en algunos estudios, se ha demostrado que proporciona una reducción del 10 al 20 % en la cantidad de datos de salida codificados para una calidad de imagen comparable en comparación con CAVLC. Sin embargo, se considera que CAVLC representa un nivel de complejidad mucho menor (en términos de su implementación) que CABAC. Obsérvese que, el proceso de exploración y el proceso de codificación por entropía se muestran como procesos separados, pero, de hecho, pueden combinarse o tratarse juntos. Es decir, la lectura de datos en el codificador por entropía puede tener lugar en el orden de exploración. Las mismas consideraciones se aplican a los respectivos procesos inversos que se describirán a continuación.

La salida del codificador por entropía 370, junto con datos adicionales (mencionados anteriormente y/o analizados a continuación), que definen, por ejemplo, la manera en que el predictor 320 generó la imagen prevista, proporciona una señal de vídeo de salida comprimida 380.

Sin embargo, también se proporciona una ruta de retorno porque la operación del propio predictor 320 depende de una versión descomprimida de los datos de salida comprimidos.

La razón de esta característica es el siguiente. En la etapa apropiada del proceso de descompresión (que se describirá a continuación), se genera una versión descomprimida de los datos residuales. Estos datos residuales descomprimidos deben añadirse a una imagen prevista para generar una imagen de salida (porque los datos residuales originales eran la diferencia entre la imagen de entrada y una imagen prevista). Para que este proceso sea comparable, entre el lado de compresión y el lado de descompresión, las imágenes previstas generadas por el predictor 320 deben ser las mismas durante el proceso de compresión y durante el proceso de descompresión. Por supuesto, durante la descompresión, el aparato no tiene acceso a las imágenes de entrada originales, sino únicamente a las imágenes descomprimidas. Por lo tanto, en la compresión, el predictor 320 basa su predicción (al menos, para la codificación inter-imagen) en versiones descomprimidas de las imágenes comprimidas.

El proceso de codificación por entropía llevado a cabo por el codificador por entropía 370 se considera (al menos en algunos ejemplos) que es "sin pérdidas", es decir, que se puede revertir para llegar exactamente a los mismos datos que se suministraron en primer lugar al codificador por entropía 370. Así, en tales ejemplos, la ruta de retorno se puede implementar antes de la etapa de codificación por entropía. De hecho, el proceso de exploración llevado a cabo por la unidad de exploración 360 también se considera sin pérdidas, pero, en la presente realización, la ruta de retorno 390 va desde la salida del cuantificador 350 hasta la entrada de un cuantificador inverso complementario 420. En los casos donde una etapa introduce una pérdida o una pérdida potencial, esa etapa puede incluirse en el bucle de realimentación formado por la ruta de retorno. Por ejemplo, la etapa de codificación entrópica puede, al menos en principio, hacerse con pérdidas, por ejemplo, mediante técnicas en las que los bits se codifican dentro de información de paridad. En un caso de este tipo, la codificación y decodificación por entropía deberían formar parte del bucle de retroalimentación.

En términos generales, un decodificador por entropía 410, la unidad de exploración inversa 400, un cuantificador inverso 420 y una unidad o circuitería de transformada inversa 430 proporcionan las funciones inversas respectivas del codificador por entropía 370, la unidad de exploración 360, el cuantificador 350 y la unidad de transformada 340. Por ahora, el análisis continuará durante el proceso de compresión; el proceso para descomprimir una señal de vídeo comprimida de entrada se analizará por separado a continuación.

En el proceso de compresión, los coeficientes explorados pasan por la ruta de retorno 390 desde el cuantificador 350 al cuantificador inverso 420 que lleva a cabo la operación inversa de la unidad de exploración 360. Las unidades 420, 430 llevan a cabo un proceso de cuantificación inversa y transformación inversa para generar una señal de imagen residual comprimida-descomprimida 440.

La señal de imagen 440 se suma, en un sumador 450, a la salida del predictor 320 para generar una imagen de salida reconstruida 460. Esto forma una entrada al predictor de imagen 320, como se describirá a continuación.

Volviendo ahora al proceso aplicado para descomprimir una señal de vídeo comprimida recibida 470, la señal se suministra al decodificador por entropía 410 y desde allí a la cadena de la unidad de exploración inversa 400, el cuantificador inverso 420 y la unidad de transformada inversa 430 antes de añadirse a la salida del predictor de imagen 320 por el sumador 450. Así, en el lado del decodificador, el decodificador reconstruye una versión de la imagen residual y, a continuación, la aplica (mediante el sumador 450) a la versión prevista de la imagen (en una base bloque a bloque) para decodificar cada bloque. En términos sencillos, la salida 460 del sumador 450 forma la señal de vídeo descomprimida de salida 480. En la práctica, opcionalmente, se puede aplicar un filtrado adicional (por ejemplo, mediante un filtro 560 mostrado en la Figura 8 pero omitido en la Figura 7 para mayor claridad del diagrama de nivel superior de la Figura 7) antes de que se emita la señal.

El aparato de las Figuras 7 y 8 puede actuar como un aparato de compresión (codificación) o como un aparato de descompresión (decodificación). Las funciones de los dos tipos de aparatos se superponen sustancialmente. La unidad de exploración 360 y el codificador por entropía 370 no se usan en un modo de descompresión, y la operación del predictor 320 (que se describirá en detalle a continuación) y otras unidades siguen la información de modo y parámetro contenida en el flujo de bits comprimido recibido en lugar generar de ellos mismos tal información.

La Figura 8 ilustra esquemáticamente la generación de imágenes previstas y, en particular, la operación del predictor de imagen 320.

Hay dos modos básicos de predicción llevados a cabo por el predictor de imagen 320: la llamada predicción intraimagen y la llamada predicción inter-imagen o predicción de movimiento compensado (MC). En el lado del codificador, cada uno implica detectar una dirección de predicción con respecto a un bloque actual a predecir, y generar un bloque previsto de muestras de acuerdo con otras muestras (en la misma (intra) u otra (inter) imagen). En virtud de las unidades 310 o 450, la diferencia entre el bloque previsto y el bloque real se codifica o se aplica para codificar o decodificar el bloque respectivamente.

(En el decodificador, o en el lado de decodificación inversa del codificador, la detección de una dirección de predicción puede ser en respuesta a los datos asociados con los datos codificados por el codificador, lo que indica qué dirección se usó en el codificador. O. la detección puede ser en respuesta a los mismos factores sobre los que se tomó la decisión en el codificador).

La predicción intra-imagen basa la predicción del contenido de un bloque o región de la imagen en datos de la misma imagen. Esto corresponde a la denominada codificación de fotograma I en otras técnicas de compresión de vídeo. Sin embargo, a diferencia de la codificación de fotograma I, que implica codificar la imagen completa mediante intracodificación, en las presentes realizaciones la elección entre intra- e inter- codificación se puede realizar en una base bloque a bloque, aunque en otras realizaciones la elección todavía se hace en una base imagen a imagen.

La predicción de movimiento compensado es un ejemplo de predicción inter-imagen y hace uso de información de movimiento que intenta definir el origen, en otra imagen adyacente o cercana, de los detalles de la imagen han de codificase en la imagen actual. En consecuencia, en un ejemplo ideal, el contenido de un bloque de datos de imagen en la imagen prevista se puede codificar de manera muy sencilla como una referencia (un vector de movimiento) que apunta a un bloque correspondiente en la misma posición o en una posición ligeramente diferente en una imagen adyacente.

Una técnica conocida como predicción de "copia de bloque" es en algunos aspectos un híbrido de las dos, ya que usa un vector para indicar un bloque de muestras en una posición desplazada del bloque actualmente previsto dentro de la misma imagen, que debe copiarse para formar el bloque actualmente previsto.

Volviendo a la Figura 8, se muestran dos disposiciones de predicción de imágenes (correspondientes a la predicción de intra- e inter- imagen), cuyos resultados se seleccionan por un multiplexor 500 bajo el control de una señal de modo 510 (por ejemplo, del controlador 343) para proporcionar bloques de la imagen prevista para su suministro a los sumadores 310 y 450. La elección se realiza dependiendo de qué selección da la "energía" más baja (que, como se analizó anteriormente, puede considerarse como contenido de información que requiere codificación), y la elección se señaliza al decodificador dentro del flujo de datos de salida codificado. La energía de la imagen, en este contexto, puede detectarse, por ejemplo, llevando a cabo una resta de prueba de un área de las dos versiones de la imagen prevista de la imagen de entrada, elevando al cuadrado cada valor de píxel de la imagen de diferencia, sumando los valores al cuadrado, e identificando cuál de las dos versiones da lugar al valor cuadrático medio inferior de la imagen de diferencia relacionada con esa área de imagen. En otros ejemplos, se puede llevar a cabo una codificación de prueba para cada selección o selección potencial, realizándose a continuación una elección de acuerdo con el coste de cada selección potencial en términos de uno o ambos del número de bits requeridos para la codificación y la distorsión a la foto.

La predicción real, en el sistema de intra-codificación, se realiza basándose en bloques de imágenes recibidos como parte de la señal 460, es decir, la predicción se basa en bloques de imágenes codificadas-decodificadas para que pueda realizarse exactamente la misma predicción en un aparato de descompresión. Sin embargo, los datos pueden derivarse de la señal de vídeo de entrada 300 mediante un selector de intra-modo 520 para controlar la operación del predictor de intra-imagen 530.

Para la predicción inter-imagen, un predictor de movimiento compensado (MC) 540 usa información de movimiento tal como vectores de movimiento derivados por un estimador de movimiento 550 a partir de la señal de vídeo de entrada 300. Esos vectores de movimiento se aplican a una versión procesada de la imagen reconstruida 460 mediante el predictor de movimiento compensado 540 para generar bloques de la predicción inter-imagen.

En consecuencia, las unidades 530 y 540 (que operan con el estimador 550) actúan cada una como detectores para detectar una dirección de predicción con respecto a un bloque actual a predecir, y como generador para generar un bloque previsto de muestras (que forma parte de la predicción pasada a las unidades 310 y 450) de acuerdo con otras muestras definidas por la dirección de predicción.

A continuación, se describirá el procesamiento aplicado a la señal 460. En primer lugar, la señal se filtra opcionalmente mediante una unidad de filtro 560, que se describirá con mayor detalle a continuación. Esto implica aplicar un filtro de "desbloqueo" para eliminar o al menos tender a reducir los efectos del procesamiento basado en bloques llevado a cabo por la unidad de transformada 340 y operaciones posteriores. También se puede usar un filtro de desplazamiento adaptativo (SAO) de muestra. También, se aplica opcionalmente un filtro de bucle adaptativo usando coeficientes derivados del procesamiento de la señal reconstruida 460 y la señal de vídeo de entrada 300. El filtro de bucle adaptativo es un tipo de filtro que, usando técnicas conocidas, aplica coeficientes de filtro adaptativo a los datos a filtrar. Es decir, los coeficientes del filtro pueden variar dependiendo de diversos factores. Los datos que definen qué coeficientes de filtro usar se incluyen como parte del flujo de datos de salida codificado.

La salida filtrada de la unidad de filtro 560 forma de hecho la señal de vídeo de salida 480 cuando el aparato está operando como un aparato de descompresión. También se almacena en una memoria intermedia en uno o más almacenes de imágenes o fotogramas 570; el almacenamiento de imágenes sucesivas es un requisito del procesamiento de predicción de movimiento compensado y, en particular, de la generación de vectores de movimiento. Para ahorrar en requisitos de almacenamiento, las imágenes almacenadas en los almacenes de imágenes 570 pueden mantenerse en forma comprimida y a continuación descomprimirse para su uso en la generación de vectores de movimiento. Para este propósito particular, se puede usar cualquier sistema de compresión / descompresión conocido. Las imágenes almacenadas se pasan a un filtro de interpolación 580 que genera una versión de resolución superior de las imágenes almacenadas; en este ejemplo, se generan muestras intermedias (submuestras) de manera que la resolución de la imagen interpolada que se emite por el filtro de interpolación 580 sea 4 veces (en cada dimensión) la de las imágenes almacenadas en los almacenes de imágenes 570 para el canal de luminancia de 4:2:0 y 8 veces (en cada dimensión) la de las imágenes almacenadas en los almacenes de imágenes 570 para los canales de crominancia de 4:2:0. Las imágenes interpoladas se pasan como entrada al estimador de movimiento 550 y también al predictor de movimiento compensado 540.

A continuación, se describirá la forma en que se divide una imagen para el procesamiento de compresión. En un nivel básico, una imagen a comprimir se considera como una matriz de bloques o regiones de muestras. La división de una imagen en tales bloques o regiones se puede llevar a cabo mediante un árbol de decisión, tal como el que se describe en Bross et al: "High Efficiency Video Coding (HEVC) text specification draft 6", JCTVC-H1003_d0 (noviembre de 2011). En algunos ejemplos, los bloques o regiones resultantes tienen tamaños y, en algunos casos, formas que, en virtud del árbol de decisión, generalmente pueden seguir la disposición de las características de la imagen dentro de la imagen. Esto en sí mismo puede permitir una eficiencia de codificación mejorada porque las muestras que representan o siguen características de imagen similares tenderían a agruparse mediante tal disposición. En algunos ejemplos, están disponibles para su selección bloques o regiones cuadrados de diferentes tamaños (tal como muestras de 4x4 hasta, es decir, bloques de 64x64 o más grandes). En otras disposiciones ilustrativas, se pueden usar bloques o regiones de diferentes formas tales como bloques rectangulares (por ejemplo, orientados vertical u horizontalmente). Se prevén otros bloques no cuadrados ni rectangulares. El resultado de la división de la imagen en tales bloques o regiones es (al menos en los presentes ejemplos) que cada muestra de una imagen se asigna a uno, y únicamente uno, de tales bloques o regiones.

A continuación, se analizará el proceso de intra-predicción. En términos generales, la intra-predicción implica generar una predicción de un bloque actual de muestras a partir de muestras previamente codificadas y decodificadas en la misma imagen.

La Figura 9 ilustra esquemáticamente una imagen parcialmente codificada 800. En este punto, la imagen se codifica de arriba a la izquierda a abajo derecha en una base bloque a bloque. Un bloque ilustrativo codificado parcialmente durante el manejo de la imagen completa se muestra como un bloque 810. Ya se ha codificado una región sombreada 820 encima y a la izquierda del bloque 810. La predicción intra-imagen del contenido del bloque 810 puede hacer uso de cualquiera del área sombreada 820 pero no puede hacer uso del área no sombreada debajo de ella.

En algunos ejemplos, la imagen se codifica en una base bloque a bloque de modo que los bloques más grandes (denominados unidades de codificación o CU) se codifican en un orden tal como el orden analizado con referencia a la Figura 9. Dentro de cada CU, existe la posibilidad (dependiendo del proceso de división de bloque que haya tenido lugar) de que la CU ha de manejarse como un conjunto de dos o más bloques más pequeños o unidades de transformada (TU). Esto puede proporcionar un orden jerárquico de codificación de modo que la imagen se codifique en una base CU a CU, y cada CU se codifique potencialmente en una base TU a TU. Sin embargo, obsérvese que, para una TU individual dentro de la unidad de árbol de codificación actual (el nodo más grande en la estructura de árbol de división de bloque), el orden jerárquico de codificación (CU a CU y a continuación TU a TU) analizado anteriormente significa que puede haber muestras previamente codificadas en la CU actual y disponibles para la codificación de esa TU que están, por ejemplo, arriba a la derecha o abajo a la izquierda de esa TU.

El bloque 810 representa una CU; como se analizó anteriormente, para los propósitos del procesamiento de predicción de intra-imagen, esto se puede subdividir en un conjunto de unidades más pequeñas. En la CU 810 se muestra un ejemplo de una TU actual 830. De manera más general, la foto se divide en regiones o grupos de muestras para permitir una codificación eficaz de la información de señalización y los datos transformados. La señalización de la información puede requerir una estructura de árbol de subdivisiones diferente a la de la transformada y, de hecho, a la de la información de predicción o a la predicción misma. Por esta razón, las unidades de codificación pueden tener una estructura de árbol diferente a la de los bloques o regiones de transformada, los bloques o regiones de predicción y la información de predicción. En algunos ejemplos, tales como HEVC, la estructura puede ser un denominado árbol cuádruple de unidades de codificación, cuyos nodos de hoja contienen una o más unidades de predicción y una o más unidades de transformada; las unidades de transformada pueden contener múltiples bloques de transformada correspondientes a representaciones de luma y croma de la foto, y se podría considerar que la predicción es aplicable al nivel del bloque de transformada. En los ejemplos, se puede considerar que los parámetros aplicados a un grupo particular de muestras están definidos predominantemente a nivel de bloque, que potencialmente no tiene la misma granularidad que la estructura de transformada.

La predicción de intra-imagen tiene en cuenta muestras codificadas antes de que se considere la TU actual, tal como las que están encima y/o a la izquierda de la TU actual. Las muestras de origen, a partir de las que se predicen las muestras requeridas, pueden ubicarse en diferentes posiciones o direcciones con respecto a la TU actual. Para decidir qué dirección es apropiada para una unidad de predicción actual, el selector de modo 520 de un codificador ilustrativo puede probar todas las combinaciones de estructuras de TU disponibles para cada dirección candidata y seleccionar la dirección de predicción y la estructura de TU con la mejor eficiencia de compresión.

La foto también puede codificarse en una base por "corte". En un ejemplo, un corte es un grupo de CU horizontalmente adyacentes. Pero, en términos más generales, toda la imagen residual podría formar un corte, o un corte podría ser una única CU, o un corte podría ser una fila de CU, y así sucesivamente. Los cortes pueden dar alguna resistencia a los errores, ya que están codificados como unidades independientes. Los estados de codificador y de decodificador se restablecen completamente en el límite de un corte. Por ejemplo, la intra-predicción no se lleva a cabo a través de los límites de corte; los límites de corte se tratan como límites de imagen para este propósito.

La Figura 10 ilustra esquemáticamente un conjunto de posibles direcciones de predicción (candidatas). El conjunto completo de direcciones candidatas está disponible para una unidad de predicción. Las direcciones están determinadas por el desplazamiento horizontal y vertical con respecto a la posición de bloque actual, pero están codificadas como "modos" de predicción, cuyo conjunto se muestra en la Figura 11. Obsérvese que, el llamado modo de CC representa una media aritmética simple de las muestras superior y a la izquierda circundantes. Obsérvese también que, el conjunto de direcciones mostradas en la Figura 10 es únicamente un ejemplo; en otros ejemplos, un conjunto de (por ejemplo) 65 modos angulares más CC y plano (un conjunto completo de 67 modos) como se muestra esquemáticamente en la Figura 12 constituye el conjunto completo. Se podrían usar otros números de modos.

En términos generales, después de detectar una dirección de predicción, los sistemas son operativos para generar un bloque previsto de muestras de acuerdo con otras muestras definidas por la dirección de predicción. En ejemplos, el codificador de imágenes está configurado para codificar datos que identifican la dirección de predicción seleccionada para cada muestra o región de la imagen.

La Figura 13 ilustra esquemáticamente un proceso de intra-predicción en el que una muestra 900 de un bloque o región 910 de muestras se deriva de otras muestras de referencia 920 de la misma imagen de acuerdo con una dirección 930 definida por el modo de intra-predicción asociado con esa muestra. Las muestras de referencia 920 en este ejemplo provienen de bloques arriba y a la izquierda del bloque 910 en cuestión y el valor previsto de la muestra 900 se obtiene siguiendo la dirección 930 hasta las muestras de referencia 920. La dirección 930 podría apuntar a una única muestra de referencia individual, pero, en un caso más general, se usa un valor interpolado entre las muestras de referencia circundantes como el valor de predicción. Obsérvese que, el bloque 910 podría ser cuadrado como se muestra en la Figura 13 o podría tener otra forma tal como rectangular.

Las Figuras 14 y 15 ilustran esquemáticamente un proceso de proyección de muestra de referencia propuesto previamente.

En las Figuras 14 y 15, un bloque o región 1400 de muestras a predecir está rodeado por matrices lineales de muestras de referencia a partir de las que tiene lugar la intra predicción de las muestras previstas. Las muestras de referencia 1410 se muestran como bloques sombreados en las Figuras 14 y 15, y las muestras a predecir se muestran como bloques no sombreados. Obsérvese que, en este ejemplo se usa un bloque o una región de muestras de 8x8 a predecir, pero las técnicas son aplicables a tamaños de bloques variables y, de hecho, a formas de bloques.

Como se ha mencionado, las muestras de referencia comprenden al menos dos matrices lineales en orientaciones respectivas con respecto a la región de imagen actual de las muestras a predecir. Por ejemplo, las matrices lineales pueden ser una matriz o fila 1420 de muestras encima del bloque de muestras a predecir y una matriz o columna 1430 de muestras a la izquierda del bloque de muestras a predecir.

Como se analizó anteriormente con referencia a la Figura 13, las matrices de muestras de referencia pueden extenderse más allá de la extensión del bloque a predecir, para proporcionar modos o direcciones de predicción dentro del intervalo indicado en las Figuras 10-12. Cuando sea necesario, si las muestras previamente decodificadas no están disponibles para su uso como muestras de referencia en posiciones de muestra de referencia particulares, se pueden reutilizar otras muestras de referencia en esas posiciones faltantes. Se pueden usar procesos de filtrado de muestra de referencia en las muestras de referencia.

Se usa un proceso de proyección de muestra para proyectar al menos algunas de las muestras de referencia a diferentes posiciones respectivas con respecto a la región de imagen actual, de la manera mostrada en las Figuras 14 y 15. En otras palabras, en las realizaciones, el proceso y la circuitería de proyección operan para representar al menos algunas de las muestras de referencia en diferentes posiciones espaciales con relación a la región de imagen actual, por ejemplo, como se muestra en las Figuras 14 y 15. Por lo tanto, al menos algunas muestras de referencia se pueden mover (al menos para los propósitos de definir una matriz de muestras de referencia a partir de las cuales se predicen las muestras) con respecto a sus posiciones relativas a la región de imagen actual. En particular, la Figura 14 se refiere a un proceso de proyección realizado para modos que generalmente están a la izquierda del modo diagonal (18 en la Figura 11), principalmente los modos 2... 17, y la Figura 15 ilustra esquemáticamente una proyección de muestra de referencia realizada para los modos 19... 34, es decir, aquellos generalmente por encima del bloque a predecir (a la derecha del modo diagonal 18). El modo diagonal 18 se puede asignar a cualquiera de estos dos grupos como una selección arbitraria, tal como al grupo de modos a la derecha de la diagonal. A continuación, en la Figura 14, cuando el modo de predicción actual está entre los modos 2 y 17 (o su equivalente en un sistema tal como el de la Figura 12 que tiene un número diferente de modos de predicción posibles), se proyecta la matriz de muestra 1420 encima del bloque actual para formar muestras de referencia adicionales 1440 en la columna a la izquierda. A continuación, tiene lugar la predicción con respecto a la matriz proyectada lineal 1450 formada por la columna a la izquierda original 1430 y las muestras proyectadas 1440. En la Figura 15, para los modos entre 18 y 34 de la Figura 11 (o su equivalente en otros conjuntos de modos de predicción tales como los mostrados en la Figura 12), las muestras de referencia 1500 en la columna a la izquierda se proyectan para extenderse hacia la izquierda de las muestras de referencia 1510 encima del bloque actual. Esto forma una matriz proyectada 1520.

Una razón por la que se lleva a cabo una proyección de esta naturaleza es para reducir la complejidad del proceso de intra predicción, en el sentido de que todas las muestras a predecir hacen referencia a una única matriz lineal de muestras de referencia, en lugar de hacer referencia a dos matrices lineales ortogonales.

La Figura 16 ilustra esquemáticamente una circuitería de predicción 600 propuesta previamente dispuesta para llevar a cabo el proceso de proyección de las Figuras 14 y 15, proporcionando específicamente una circuitería de proyección 1610 configurada para llevar a cabo un proceso de proyección en las muestras de referencia seleccionadas actualmente para un bloque de región a predecir. Las muestras de referencia proyectadas se almacenan en una memoria intermedia 1620 a la que puede acceder un intra predictor 1630 para generar muestras previstas a partir de las muestras de referencia proyectadas. El proceso de proyección se lleva a cabo de acuerdo con el modo de predicción asociado con el bloque actual a predecir, usando las técnicas analizadas en relación con las Figuras 14 y 15.

En realizaciones, el mismo proceso de proyección se lleva a cabo en el decodificador y en el codificador, de modo que las muestras previstas sean las mismas en cada caso.

A continuación, se analizarán las posibles variaciones en la operación entre el uso de modos de predicción a los que se hará referencia como "modos rectos" y modos de predicción a los que se hará referencia como "modos curvos".

El tipo de modos de predicción mostrados esquemáticamente, por ejemplo, en las Figuras 10-12, son los llamados modos rectos, en el sentido de que una dirección particular de predicción está asociada con cada modo, y esa dirección tiene un ángulo asociado (entre una muestra actual a predecir y una posición de referencia entre las muestras de referencia a partir de las que ha de predecirse la muestra actual) que es independiente de la ubicación, dentro de la región o bloque actual a predecir, de la muestra actual a predecir. Una disposición de este tipo se muestra esquemáticamente en la Figura 17, que representa varios modos de predicción rectos. En el caso de la Figura 17, se muestra una versión reducida del conjunto completo de modos de predicción rectos ilustrados en las Figuras 10 a 12, simplemente para mayor claridad del diagrama.

La Figura 18 ilustra esquemáticamente otro ejemplo de un conjunto de modos de predicción. De nuevo, exclusivamente para mayor claridad del diagrama, se muestra un número reducido de modos de predicción que el número disponible en las Figuras 10-12, pero las técnicas a describir son aplicables a conjuntos de 35, 67 u otros números de modos de predicción. Se puede observar en la Figura 18 que, algunas de las direcciones asociadas con los modos de predicción no están representadas como líneas rectas. Estos llamados modos de predicción curvados definen una dirección de predicción que tiene una dirección entre la muestra actual a predecir y una posición de referencia entre las muestras de referencia que varía dentro de una ubicación, dentro de la región actual, de la muestra actual a predecir. En realizaciones, un modo curvo puede proporcionar una predicción mejorada para algunas regiones de imagen. En realizaciones, los modos curvos pueden proporcionar una predicción mejorada para algunos tipos de imágenes, tales como imágenes proyectadas equirrectangulares (ERP) que pueden usarse para representar imágenes omnidireccionales, y, en realizaciones adicionales, la extensión de curvatura de los modos individuales puede variar para diferentes posiciones a través de la imagen. Se describirán con más detalle a continuación diversos ejemplos de tales disposiciones con referencia a las Figuras 38 a 39b.

De hecho, la Figura 18 representa un conjunto híbrido ilustrativo de modos de predicción que incluye algunos modos de predicción rectos (tales como los modos diagonales y horizontal y vertical) y algunos modos de predicción curvos. El sentido o polaridad de la curvatura puede ser en cualquier dirección, de modo que, según se dibuja en la Figura 18, algunos de los modos curvos se curvan en el sentido de las agujas del reloj (según se dibuja) y algunos se curvan en el sentido contrario a las agujas del reloj (según se dibuja). Pueden considerarse porciones de una parábola, es decir, de naturaleza parabólica con inflexión convexa o cóncava, aunque se pueden usar otras formas de curva. Se apreciará que, el conjunto de modos mostrado esquemáticamente en la Figura 18 no es únicamente representativo de un número menor de modos de predicción que los que pueden usarse en un sistema ilustrativo, sino que también es exclusivamente explicativo y a modo de ejemplo.

Por lo tanto, la Figura 18 proporciona un ejemplo de un conjunto de modos de predicción que comprende al menos un modo de predicción recto que define una dirección de predicción que tiene una dirección entre la muestra actual y la posición de referencia que es independiente de la ubicación, dentro de la región actual, de la muestra actual a predecir. Por ejemplo, el conjunto de direcciones de predicción candidatas puede incluir al menos una dirección de predicción horizontal y una dirección de predicción vertical.

Como antecedente adicional para la explicación de los modos de predicción rectos y curvos, las Figuras 19 y 20 ilustran esquemáticamente una técnica ilustrativa mediante la que las muestras 1900 de una región actual 1910 o bloque a predecir se predicen a partir de muestras de referencia 1920. En este ejemplo, las muestras de referencia se han proyectado en una matriz lineal usando las técnicas descritas con referencia a las Figuras 14-16 anteriores.

Se usa un sistema de coordenadas (x, y) por conveniencia, para permitir que se identifiquen referencias individuales o posiciones de muestra previstas. En el ejemplo de la Figura 19, se muestran las coordenadas x mediante una fila 1930 de números y se muestran las coordenadas y mediante una columna 1940 de números. Por lo tanto, cada posición de referencia o muestra prevista tiene una designación asociada (x, y) usando el sistema de coordenadas.

En el ejemplo de la Figura 19, un modo generalmente vertical (es decir, un modo que es más vertical que horizontal) 1950, tal como el modo 23 en la designación de la Figura 11, teniendo en cuenta que podría usarse un número de modo diferente si se empleó el conjunto de modos mostrado en la Figura 12, se ha seleccionado para la predicción de muestras 1900 del bloque o región 1910. Como se analizó anteriormente con referencia a las Figuras 14-16, un modo de predicción generalmente vertical de este tipo se maneja por la circuitería de la Figura 16 proyectando la columna izquierda de muestras de referencia en una extensión 1960 de las muestras de referencia por encima del bloque o región 1910.

Cada una de las muestras a predecir 1900 se predice de la siguiente manera. Para cada muestra a predecir, hay una ubicación asociada (x, y), tal como una ubicación (0, 5) para una muestra de 1970 o una ubicación (0, 4) para una muestra de 1972. Estas dos muestras se usan exclusivamente a modo de ejemplo y la misma técnica se aplica a cada una de las muestras 1900 a predecir.

Las posiciones de muestra de las muestras 1970, 1972 a predecir se mapean de acuerdo con la dirección 1950 asociada con el modo de predicción actual a las respectivas ubicaciones o posiciones de referencia 1974, 1976 entre las muestras de referencia. Este mapeo se puede llevar a cabo usando una expresión como la que se muestra a continuación, teniendo en cuenta que se trata de una expresión lineal con respecto al sistema de coordenadas (x, y):

Para los modos horizontales 2-17 en la notación de la Figura 11:

con p =A x (x+1)

Para los modos verticales 18-34 en la notación de la Figura 11:

valor previsto (x. y) = {1 -f(p)} * ref [x+i(p)] f(p) * ref [x+i(p)+1]

con p = A x (y+1)

y donde i(p)=suelo(p), es el valor p redondeado hacia abajo (hacia el infinito negativo) al entero más cercano, f(p)=pi(p) representa la parte fraccionaria del valor p.

A es un parámetro de ángulo que indica el ángulo del modo actual. Para ilustrar, por ejemplo, para una línea horizontal o vertical, A sería 0; para una línea diagonal de 45°, A sería ±1.

Los expertos en la materia apreciarán que se pueden usar aproximaciones de números enteros para simplificar las ecuaciones lineales, por ejemplo, representando el parámetro de ángulo A como un número de precisión fija fraccionario. En HEVC, los ángulos tienen una precisión de 5 bits fraccionarios.

En disposiciones ilustrativas, la posición de referencia 1974, 1976 se detecta con una precisión o resolución de menos de una muestra, es decir, con referencia a las ubicaciones de la muestra de referencia (-5, -1)... (15, -1), se usa un valor fraccionario para la coordenada x de la posición de referencia dentro del conjunto proyectado de muestras de referencia 1920. Por ejemplo, la posición de referencia podría detectarse con una resolución de 1/32 de una separación de muestra, de modo que la coordenada x de las posiciones de referencia 1974, 1976 se identifique con esa resolución. La coordenada y de la posición de referencia es en cada caso -1, pero esto de hecho es irrelevante para los cálculos que tienen lugar a continuación, que se refieren a la interpolación a lo largo del eje x de las muestras de referencia 1920.

La predicción de los valores previstos 1970, 1972 es una interpolación del valor aplicable a la coordenada x detectada de la posición de muestra de referencia 1974, 1976, por ejemplo, como se ha descrito anteriormente en las fórmulas mostradas anteriormente.

Una disposición similar se muestra esquemáticamente en la Figura 20, excepto que se usa un modo de predicción generalmente horizontal, es decir, un modo de predicción que es más horizontal que vertical, tal como (por ejemplo) el modo 14 del conjunto mostrado en la Figura 11 (o un número correspondiente para un modo similar en el conjunto mostrado en la Figura 12) que tiene una dirección de predicción 2000. La selección del modo de predicción particular se aplica a la totalidad del bloque o región 2010 de muestras 2020 a predecir y el ejemplo particular en este punto se elige exclusivamente para los fines de la presente explicación.

En el caso de un modo generalmente horizontal, como se analizó anteriormente, la circuitería de proyección mostrada en la Figura 16 proyecta esas muestras de referencia desde arriba del bloque o región 2010 para formar una extensión 2030 de muestras de referencia a la izquierda de la región. Una vez más, se muestra la derivación de dos muestras ilustrativas a predecir, las muestras 2032, 2034, de manera que se asigna la posición de la muestra 2032, 2034 usando la dirección 2000 a las posiciones de referencia 2036, 2038 entre el conjunto de muestras de referencia 2040. Una vez más, se usa un sistema de coordenadas (x, y) similar y las posiciones de referencia 2036, 2038 se expresan con una resolución de muestra de 1/32 en la dirección y. La coordenada x de las posiciones de la muestra de referencia es -1 pero esto es irrelevante para el proceso que sigue. Los valores de muestra de las muestras a predecir se obtienen de la manera descrita anteriormente.

Usando los antecedentes analizados con las Figuras 19 y 20, las operaciones con respecto a los modos de predicción rectos y curvos se analizarán ahora con referencia a las Figuras 21 y 22. En estas disposiciones, el intra predictor 530 proporciona un ejemplo de un detector configurado para detectar la posición de referencia como una posición de matriz, con respecto a una matriz de muestras de referencia, señalada por la dirección de predicción aplicable a la muestra actual a predecir; y un filtro configurado para generar la muestra prevista mediante interpolación de la matriz de muestras de referencia en la posición de la matriz detectada. El detector puede configurarse para detectar la posición de la matriz con una precisión de menos de una muestra, tal como 1/32 de muestra.

El selector intra modo 520 puede configurarse para realizar al menos una codificación parcial para seleccionar el modo de predicción.

La Figura 21 muestra una disposición similar a la usada en la Figura 19, relacionada con la operación con respecto a un modo de predicción recto. En este punto, entre un bloque 2100 de muestras 2110 a predecir, se consideran tres posiciones de muestra ilustrativas 2120, 2130, 2140, pero se aplican los mismos principios a cada posición de muestra de cada bloque o región 2100 de muestra 2110.

Teniendo en cuenta la dirección 2150 del modo de predicción actualmente seleccionado, las posiciones de las muestras 2120, 2130, 2140 a predecir se mapean usando las técnicas descritas anteriormente para referenciar las posiciones 2160, 2170, 2180 entre las muestras de referencia 2190 asociadas con el bloque o región actual 2100. Como se analizó anteriormente, estas posiciones de referencia 2160, 2170, 2180 se pueden expresar con una resolución de submuestra tal como 1/32 muestras en la dirección x con respecto a las muestras de referencia 2190.

En cada caso, un ángulo 2122, 2132, 2142 que define la dirección o ángulo entre la posición de referencia 2160...2180 y la posición 2120...2140 de la muestra a predecir, es el mismo. En otras palabras, es independiente de la ubicación dentro del bloque o región 2100 de la muestra a predecir. Esta característica, que los ángulos 2122...2142 son todos iguales para cada muestra a predecir dentro del bloque 2100, surge de la expresión lineal descrita anteriormente usada para describir la posición de referencia dentro de las muestras de referencia 2190.

La Figura 22 muestra una disposición similar para un bloque 2200 de muestras 2210 a predecir y un conjunto 2290 de muestras de referencia, pero usando un llamado modo de predicción curvado mostrado esquemáticamente mediante una dirección 2250. Una vez más, se describe la situación que se aplica a tres posiciones de muestra ilustrativas de las muestras 2210 a predecir, en concreto las posiciones de muestra 2220, 2230, 2240. Estas posiciones 2220...2240 se mapean mediante el proceso de predicción a las posiciones de referencia 2260, 2270, 2280 entre las muestras de referencia 2290. Sin embargo, los ángulos 2222, 2232, 2242 entre las ubicaciones 2220...2240 y las posiciones de referencia mapeadas 2260...2280 varían de acuerdo con la ubicación de la muestra respectiva a predecir dentro del bloque 2200. En el presente ejemplo, los ángulos 2222...2242 se vuelven más agudos (es decir, más pequeños con respecto a una dirección vertical arbitraria) al aumentar la separación (en la dirección y en este ejemplo) del conjunto proyectado de muestras de referencia 2290. Esta variación en el ángulo también puede representarse mediante un cambio en la separación 2264, 2274, entre una ubicación teórica y 2262, 2272 a la que apuntaría una dirección en el ángulo 2242 aplicable a la muestra 2240, y la posición de referencia real 2260, 2270. Esta diferencia de ubicación en la dirección x aumenta con la separación y de las muestras de referencia hasta la posición de la muestra a predecir.

En general, para un modo curvado, cada muestra a predecir está asociada con una posición de coordenadas dentro de la región actual 2200, y se detecta una matriz o posición de referencia dentro del conjunto o matriz de muestras de referencia 2290 como una función de la posición de coordenadas de una muestra dada a predecir, y la función depende del modo de predicción seleccionado. Para un modo curvado, la función de la posición de coordenadas de esa muestra a predecir es una función no lineal.

A continuación, se muestran ejemplos de funciones no lineales adecuadas para definir modos de predicción curvos:

pos ic ión = r * ta n (á n g u lo )

pos ic ión = (r*r/5 ) * ta n (á n g u lo )

donde r = número de fila para modos verticales, por ejemplo, un tamaño de bloque ilustrativo de 16 x 16 (el factor de 5 podría cambiar para otros tamaños de bloque)

Una función analítica de esta naturaleza no es un requisito; en su lugar, se podría usar una tabla de consulta que vincula la ubicación de la muestra a predecir (o grupos o clasificaciones de ubicaciones) con la posición de referencia. En ejemplos, se podría emplear una tabla de consulta diferente para cada tamaño de bloque.

Por lo tanto, en estos ejemplos, cada muestra a predecir está asociada con una posición de coordenadas dentro de la región actual; y el detector (del intra predictor 530) está configurado para detectar la posición de la matriz para una muestra dada a predecir como una función de la posición de coordenadas de la muestra dada a predecir, dependiendo la función del modo de predicción seleccionado. Por ejemplo, para un modo curvado, la función de la posición de coordenadas de esa muestra a predecir es una función no lineal. En ejemplos, la función no lineal puede depender de una ubicación de la región actual dentro de la imagen actual, por ejemplo, para corresponder a un tipo de distorsión conocida o detectada que está presente en la imagen, y, de manera similar, el conjunto de modos de predicción puede depender de una ubicación de la región actual dentro de la imagen actual, de nuevo, por ejemplo, para corresponder a un tipo de distorsión conocida o que se detecta que está presente en la imagen.

La Figura 23 ilustra esquemáticamente una disposición que forma parte de la circuitería de intra-predicción (por ejemplo, el intra predictor 530 y/o el selector de modo intra 520) para permitir que se use un conjunto generalizado de modos de predicción rectos y/o curvos. Un almacén de funciones 2300 almacena funciones, ya sean lineales o no lineales, asociando ubicaciones de muestras a predecir con posiciones de referencia correspondientes, y un generador de modos 2310 aplica la función actualmente seleccionada de acuerdo con una designación de modo de predicción o número 2320 a las muestras de referencia 2330 y ubicaciones 2340 de muestras a predecir para generar valores de muestra previstos 2350.

Las Figuras 24 y 25 ilustran esquemáticamente posibles situaciones que pueden surgir al codificar o decodificar una imagen real. En este punto, se muestra un conjunto de modos de predicción disponibles para selección por el selector de intra modo 520, observando que el conjunto es un conjunto más pequeño que el mostrado en las Figuras 10-12, principalmente por claridad del diagrama.

Con referencia a la Figura 24, un bloque o región 2400 de muestras a predecir tiene muestras de referencia asociadas 2410. Sin embargo, debido al orden de codificación de bloque particular aplicable a la imagen en cuestión, puede darse el caso de que algunas muestras de referencia, tales como un grupo de muestras 2420, no estén disponibles para su uso en la predicción de muestras del bloque o región actual 2400.

Algunos sistemas de codificación o decodificación de vídeo proporcionan el llamado proceso de sustitución de muestra de referencia en el que las muestras 2420 se reemplazan (cuando no están disponibles) por, por ejemplo, repeticiones de una muestra de referencia disponible más cercana, tal como una muestra 2430. Sin embargo, en las técnicas a analizar a continuación, el conjunto de modos de predicción entre los que se puede seleccionar un modo aplicable a la región actual 2400 varía para tener en cuenta la no disponibilidad de las muestras 2420. Por ejemplo, se puede considerar que un conjunto de modos de predicción 2440 es menos útil en la situación en la que las muestras 2420 no están disponibles, ya que la información obtenida prediciendo de acuerdo con uno de los modos de predicción 2440 puede ser muy limitada, por ejemplo, basándose exclusivamente en el valor de muestra de las muestras de referencia 2440 para un gran número de muestras a predecir en el bloque 2400.

En la Figura 25 se tienen en cuenta las propiedades de las propias muestras de referencia, por ejemplo, la denominada actividad de imagen de las muestras de referencia. La actividad de imagen es una expresión que se refiere a la cantidad de información llevada por un conjunto de muestras. Si las muestras son generalmente diferentes entre sí y representan una cantidad relativamente grande de detalles de imagen localizados, a continuación, se dice que estas muestras tienen una gran actividad de imagen. Si un conjunto de muestras son similares entre sí, o idénticas, de modo que representan una falta de detalle de imagen localizado, se dice que esas muestras tienen una actividad de imagen baja. Una medida ilustrativa de la actividad de imagen que se puede aplicar analíticamente a un conjunto de muestras se da por la siguiente fórmula:

para muestras 0 a m (que son un grupo arbitrario de m+1 muestras, de un grupo tal como los grupos 2510, 2520, 2512, 2514, 2524, 2526 o similares), donde p es un valor de muestra tal como un valor de luminancia:

Sea delta™ —<pm-i - Pm>

A ctiv idad =2

m

Se aprecia que, para reducir la complejidad del cálculo, la suma de los cuadrados a menudo se reemplaza con una suma de los valores absolutos, y también se puede retirar la operación de raíz cuadrada.

En la situación de ejemplo mostrada en la Figura 25, las muestras de referencia 2510 con respecto a un bloque o región 2500 de muestras a predecir tienen una actividad de imagen superior (mostrada esquemáticamente en la Figura 25) por la variación en el sombreado dibujado para esas muestras de referencia. Las muestras de referencia 2520 tienen una actividad de imagen generalmente inferior, mostrada esquemáticamente en la Figura 25 mediante un sombreado idéntico aplicado a la representación aplicada a esas muestras de referencia en el dibujo. Esto implica que, para un conjunto de modos de predicción 2530 que apuntan hacia las muestras de referencia que tienen la actividad de imagen inferior, se obtendrá información potencialmente menos útil que proporciona una variación de los valores de muestra previstos a través del bloque 2500 que si se usara uno de un conjunto 2540 de modos de predicción.

Las realizaciones ilustrativas que se analizarán a continuación hacen uso de un controlador (por ejemplo, realizado por el selector de modo intra y/o como se analiza con referencia a las Figuras 29 a 33 que se analizan a continuación) para seleccionar (de un conjunto de direcciones de predicción, tal como un conjunto completo como se muestra en las Figuras 10-12) un conjunto de direcciones de predicción candidatas como un subconjunto del conjunto (completo) de direcciones de predicción, para una región de imagen actual de una imagen actual, en dependencia de las propiedades actuales de un grupo de muestras de referencia de la imagen actual aplicable a la región de imagen actual. Por ejemplo, la una o más propiedades pueden representar al menos la actividad de imagen del grupo de muestras de referencia, y la selección del subconjunto de direcciones de predicción se puede ponderar hacia muestras de referencia en el grupo de muestras de referencia que tienen actividad de imagen superior.

A continuación, se analizarán disposiciones ilustrativas con referencia a las Figuras 26-28, en las que, exclusivamente para los propósitos del presente análisis, se asumirá una situación en la que el conjunto de direcciones de predicción candidatas está al menos ponderado hacia direcciones de predicción generalmente verticales, por ejemplo, debido a una detección de una actividad de imagen mayor entre las muestras de referencia (tales como las muestras de referencia 2510 en la Figura 25) por encima de la región actual 2500, en comparación con la actividad de imagen de las muestras de referencia 2520 a la izquierda de la región actual.

En la Figura 26, se usan tres tipos de líneas para representar esquemáticamente diferentes modos de predicción, en referencia al conjunto completo de modos de predicción de la Figura 24 (que, a su vez, es un número generalmente menor que el mostrado en las Figuras 10 a 12 exclusivamente para claridad del diagrama). Estas diferentes representaciones se muestran a la derecha de la Figura 26, en la que una línea continua indica un modo de predicción del conjunto completo original que se conserva en el presente proceso; una línea de puntos indica un modo adicional (a analizarse a continuación) y una línea formada por guiones y puntos alternos (- ■ - ■) representa un modo del conjunto original que no se usa (o no está disponible para su uso) en la selección de un modo de predicción para el bloque actual de muestras a predecir.

En términos de los modos del conjunto original conservados bajo el proceso actual, en el presente ejemplo de muestras de referencia 2510 por encima del bloque actual 2500 que tienen una actividad superior, se conservan aquellos modos desde el modo diagonal superior izquierdo 2600 (modo 18 en la representación de la Figura 11, o un número equivalente en la representación de la Figura 12) alrededor del modo diagonal derecho 2610 (modo 34 en la representación de la Figura 11 o un equivalente en la representación de la Figura 12). En algunos ejemplos, los modos que tienen un componente horizontal mayor que el modo 2600 no se usan como modos candidatos para el bloque actual.

Sin embargo, una excepción opcional a esta disposición es conservar un modo horizontal 2620 (modo número 10 en la representación de la Figura 11, o un número equivalente en la representación de la Figura 12). Esto se debe a que el modo horizontal (y, en otras situaciones ilustrativas en las que los modos verticales están excluidos del conjunto candidato, un modo vertical 2630) se puede usar en parte para señalizar un orden de exploración, es decir, un orden de procesamiento de uno o ambos de: muestras a predecir dentro de un bloque; y bloques o subbloques de muestras a predecir. Como tal, puede ser útil conservar los modos horizontal 2620 y vertical 2630 como modos candidatos que pueden seleccionarse con respecto a un bloque actual a predecir, incluso si uno de ellos no se conservaría de otra manera en virtud de los criterios relacionados con las propiedades del grupo de muestras de referencia. Por lo tanto, en ejemplos, el conjunto de direcciones de predicción candidatas puede incluir al menos una dirección de predicción horizontal y una dirección de predicción vertical. De manera más general, dado que es común que el proceso de decodificación por entropía esté separado de la reconstrucción de la imagen (es decir, los procesos de transformada y predicción), en los casos donde el decodificador por entropía usa el modo de intra predicción señalizado para ajustar el proceso de codificación por entropía, el modo de intra predicción se usa como se señaliza, y no como se remapearía posteriormente mediante la consideración de muestras de referencia.

El proceso descrito hasta ahora conduce a la generación o selección de un conjunto de direcciones de predicción candidatas como un subconjunto del conjunto (completo) de direcciones de predicción, para su uso con respecto a una región de imagen actual. Esta técnica en sí misma puede conducir potencialmente a una codificación más eficiente porque es necesario codificar menos números de modo y, por lo tanto, potencialmente, se pueden usar menos bits para codificar los números de modo.

Sin embargo, en otras disposiciones ilustrativas también se usan los llamados modos adicionales.

Ejemplos de modos adicionales (tal como un modo adicional 2640 en la Figura 26) incluyen: (i) una dirección de predicción que radica entre un par respectivo de direcciones de predicción en el conjunto de direcciones de predicción candidatas; y/o (ii) una dirección de predicción que tiene o representa una dirección entre una posición de muestra de una muestra a predecir y una posición de referencia correspondiente que varía con una ubicación, dentro del bloque o región actual, de la muestra a predecir. En otras palabras, usando la terminología empleada anteriormente, la primera categoría se refiere a modos de predicción rectos adicionales y la segunda categoría se refiere a modos de predicción curvos adicionales.

La Figura 26 muestra un ejemplo en el que se proporcionan modos de predicción rectos adicionales, y la Figura 28 que se analizará a continuación se refiere a modos de predicción curvos adicionales. También se puede usar una combinación de los dos.

Así, en la Figura 26, entre los modos de predicción originales del conjunto original (completo) entre el modo 2600 y el modo 2610, se intercalan modos adicionales, por ejemplo, uniformemente entre pares de modos originales adyacentes.

En la Figura 27, que usa la misma notación que la Figura 26 y se refiere a la misma situación ilustrativa de actividad superior en las muestras de referencia superiores, se conserva un subconjunto de modos originales entre el modo 2600 y un modo diagonal inferior 2700 tal como el modo 2 de la Figura 11 o un número equivalente en la notación de la Figura 12. Por ejemplo, se conservan los modos originales alternativos 2710, 2720 (que pueden conservarse como el modo horizontal), 2730 y no se usan los modos originales intermedios en el conjunto candidato. En el ejemplo esquemático mostrado, esto significa que hay cuatro modos originales no usados, de modo que, sin superar la numeración de modos original, se pueden introducir cuatro modos adicionales 2740, 2750, 2760, 2770.

Esta disposición se puede implementar usando un mapeo entre los números de modo originales para estos modos no conservados en el subconjunto candidato y los modos adicionales, por ejemplo, como se muestra en la siguiente tabla, que usa una notación de ejemplo basada en la numeración de la Figura 11, aunque se apreciará que podría emplearse una disposición similar con numeración diferente tal como una numeración apropiada para la Figura 12. Este ejemplo se refiere a una situación ilustrativa en la que los modos horizontales distintos del modo 10 se reducen eliminando modos alternativos, de una manera generalmente similar a la mostrada en la Figura 27:

La Figura 28 proporciona otro ejemplo que se refiere a la misma situación ilustrativa que la mostrada en la Figura 26 y usa la misma notación para los modos conservado, adicional y no usado. En este punto, los modos 2800, 2810 no se usan como modos de predicción candidatos, lo que permite que se introduzcan siete modos adicionales sin superar la numeración de modos original. En el ejemplo de la Figura 28, los siete modos adicionales son los llamados modos curvos (o no lineales o no rectos), como se analizó anteriormente.

Por tanto, los subconjuntos de modos candidatos derivados en los ejemplos de las Figuras 26 a 28 se pueden usar con respecto a un bloque actual, basándose en las propiedades de las muestras de referencia aplicables al bloque actual.

Como se muestra en la Figura 28, la una o más direcciones de predicción adicionales pueden comprender uno o más de: (i) una dirección de predicción que radica entre un par respectivo de direcciones de predicción en el conjunto de direcciones de predicción candidatas; y (ii) una dirección de predicción que tiene una dirección, entre una muestra actual a predecir y una posición de referencia entre las muestras de referencia, que varía con una ubicación, dentro de la región actual, de la muestra actual a predecir. Puede haber una o más direcciones adicionales entre un par respectivo de direcciones de predicción. La dirección o direcciones de predicción adicionales pueden ser o no equidistantes de su par respectivo.

La Figura 29 ilustra esquemáticamente un ejemplo de un controlador para seleccionar, de un conjunto de direcciones de predicción, un conjunto de direcciones de predicción candidatas como un subconjunto del conjunto de direcciones de predicción, para una región de imagen actual de una imagen actual, en dependencia de una o más propiedades de un grupo de muestras de referencia de la imagen actual aplicables a la región de imagen actual.

En particular, en el ejemplo de la Figura 29, un detector de actividad 2900 responde a las muestras de referencia 2920 aplicables a la región actual y proporciona datos de actividad a un selector 2910 que genera un conjunto de modos de predicción candidatos 2930. Como se analizó anteriormente, esto podría (por ejemplo) ser un subconjunto sencillo del conjunto completo original de modos de predicción como se analiza en relación con la Figura 26. El detector de actividad 2900 podría operar con respecto a, por ejemplo, un primer grupo de muestras de referencia tal como el grupo 2510 de la Figura 25 encima de la región actual 2500 y un segundo grupo de muestras de referencia a la izquierda de la región actual 2500 (asignándose arbitrariamente una muestra de referencia de esquina 2522 a uno o ambos de estos grupos). En otros ejemplos, se podrían considerar subgrupos de muestras de referencia, tales como un par de subgrupos 2512, 2514 en lugar del grupo 2510 (o incluso además de él) y un par de subgrupos 2524, 2526 además o en lugar del subgrupo 2520.

En realizaciones en las que están disponibles múltiples grupos de muestras de referencia, los grupos podrían examinarse para seleccionar el modo disponible. Por ejemplo, si hubiera múltiples filas de muestras de referencia disponibles, las filas podrían correlacionarse para dirigir la disponibilidad de los modos. Para los modos curvos, las múltiples líneas de muestras de referencia podrían usarse para dirigir la curvatura en el borde, y el modo de intra predicción se podría usar para dirigir el ángulo promedio del bloque. Para los modos rectos, una fila podría proyectarse sobre la otra para el modo de intra predicción especificado y en desplazamientos subfraccionales de ese modo de predicción, dependiendo el desplazamiento subfraccional (o cero) seleccionado de cómo se correlacionan las dos filas. Para el último caso, dado que a menudo existe una tendencia en el proceso de transformada/cuantización para dirigir el residual hacia la dirección ortogonal, puede ser mejor que los desplazamientos subfraccionales estén desviados hacia un lado particular del modo predeterminado, en lugar de hacerlo uniformemente alrededor de él

Las muestras de referencia con la actividad superior (o la más alta) podrían conducir a que únicamente las direcciones de predicción que apunten en esa o aquellas direcciones estén disponibles en los modos candidatos. En otros ejemplos, se podría excluir un subconjunto (tal como alternativo) de modos de predicción en la dirección de "actividad inferior" y, opcionalmente, se podrían insertar modos adicionales en la dirección de "actividad superior". Esta disposición proporciona un ejemplo en el que la una o más propiedades representan al menos la actividad de imagen del grupo de muestras de referencia; y la selección del subconjunto de las direcciones de predicción se pondera hacia las muestras de referencia en el grupo de muestras de referencia que tienen actividad de imagen superior. Más generalmente, la una o más propiedades pueden representar al menos una de la lista que consiste en: actividad de imagen del grupo de muestras de referencia, ponderándose la selección del subconjunto de las direcciones de predicción hacia muestras de referencia en el grupo de muestras de referencia que tienen actividad de imagen superior; y posición de la región de imagen actual dentro de una foto. Por ejemplo, si fuera necesario extrapolar o repetir muestras de referencia porque el conjunto de muestras de referencia en uso se extiende más allá de una región decodificada actual y/o no se han almacenado en la memoria intermedia, a continuación, el conjunto de modos candidatos puede incluir predominantemente aquellos que apuntan a muestras de referencia que no se extrapolan ni repiten. La posición dentro de una foto o porción de imagen tal como un corte puede tener un efecto similar en la disponibilidad de muestras de referencia, de modo que (por ejemplo) algunas de las posiciones de la muestra de referencia pueden quedar fuera de la foto o porción de imagen actual en virtud de la posición del bloque, de modo que, una vez más el conjunto de modos candidatos se dirija hacia muestras de referencia que realmente existen. En algún ejemplo, los modos que apuntan a muestras de referencia fuera de la unidad de árbol de codificación actual se eliminan del conjunto de modos disponibles para su uso.

Como se mencionó anteriormente, la operación del selector podría ser simplemente elegir un subconjunto del conjunto completo original de modos como conjunto candidato de direcciones de predicción. Sin embargo, en otros ejemplos, el selector podría incluir funcionalidades como se muestra en la Figura 30 en las que un selector de modo adicional 3000, en respuesta a un conjunto de modos candidato provisional 3010 seleccionado como un subconjunto del conjunto completo, añade modos adicionales al subconjunto seleccionado como el conjunto candidato provisional, y un mapeador de número de modo 3020 aplica un mapeo entre los modos adicionales y los números de modo originales pero no usados usando las técnicas analizadas anteriormente para generar un conjunto candidato 3030 de modos de predicción aplicables a la región de imagen actual. Esto proporciona un ejemplo en el que el controlador está configurado para complementar el conjunto de direcciones de predicción candidatas con una o más direcciones de predicción adicionales que no forman parte del conjunto de direcciones de predicción. El proceso de mapeo proporciona un ejemplo en el que cada conjunto de direcciones de predicción tiene identificadores de dirección asociados; y el controlador está configurado para asignar la una o más direcciones de predicción adicionales a respectivos identificadores de dirección asociados con direcciones de predicción que están en el conjunto de direcciones de predicción, pero no en el subconjunto de direcciones de predicción.

La Figura 31 se refiere a un proceso que se puede llevar a cabo además de las técnicas analizadas anteriormente, usando un detector de modo más probable (MPM) 3100 y un codificador 3110.

En algunas disposiciones ilustrativas, los llamados modos más probables se derivan de los modos aplicables a bloques previamente codificados/decodificados. El objetivo de este proceso es que (a) la derivación de los MPM se pueda llevar a cabo de manera idéntica en el codificador durante la codificación y en el decodificador durante la decodificación, de modo que ambos traten con los mismos MPM para cualquier muestra en particular, (b) si el contenido de imagen es similar entre el bloque actual y los bloques previamente codificados de los que se derivaron los MPM, existe al menos una buena posibilidad de que las muestras del bloque actual también usen un MPM, y (c) un MPM puede codificarse con una cantidad potencialmente menor de datos en el flujo de bits, en comparación con uno arbitrario del conjunto completo de MPM. Por lo tanto, para una muestra de un bloque actual, se puede usar una cantidad más corta de datos para codificar el modo elegido si es un MPM derivado de uno o más bloques previamente codificados (por ejemplo, anteriores). Esto se debe a que se puede usar un código de datos corto para indicar simplemente que "esta muestra está usando el modo más probable derivado por el proceso preconfigurado de los bloques anteriores" en lugar de tener que especificar un modo entre un grupo de, por ejemplo, 67 modos. Por lo tanto, dado que la selección de modo a menudo es similar dentro de regiones de imagen, esto puede proporcionar un ahorro general en la tasa de bits.

La expresión "modo más probable" se usa en la técnica y, por lo tanto, se emplea en este punto por conveniencia. El "modo más comúnmente usado" sería otra posible expresión para su uso en relación con estos modos. El término MPM no implica una probabilidad más alta absoluta de que un modo derivado de muestras anteriores sea el más probable de ser seleccionado para una muestra particular. Sin embargo, los llamados MPM tienden a ser modos que se usan comúnmente para muestras anteriores, o se derivan de modos que se usan comúnmente para muestras anteriores, por lo que generalmente existe una mayor probabilidad de que sean aplicables a una muestra actual.

También se observa que se puede derivar más de un MPM. El término "MPM" no implica que los modos (más de uno) sean igualmente más probables, pero como conjunto de dos o más MPM, se pretende que tengan una mayor probabilidad de ser aplicables a la muestra actual.

En los presentes ejemplos, el controlador está configurado para detectar, como direcciones de predicción candidatas adicionales, una o más direcciones de predicción probables en respuesta a las comúnmente usadas para una o más regiones de imagen previamente codificadas y para codificar los datos que identifican la dirección de predicción como: (i) datos que indican que la dirección de predicción es una dirección de predicción probable detectada, o (ii) datos que identifican la dirección de predicción entre las direcciones de predicción candidatas restantes.

La Figura 32 ilustra esquemáticamente la manera en que las técnicas analizadas anteriormente pueden encajar en las disposiciones descritas con referencia a las Figuras 1 a 8 anteriores. Se hace referencia particular a la Figura 8. Se usa una memoria intermedia de muestra de referencia 3200 para almacenar muestras de referencia recibidas como la muestra 460 desde el sumador 450. Usando las muestras de referencia almacenadas en memoria intermedia, un selector de modo candidato 3210 - que opera de acuerdo con la Figura 29 y, opcionalmente, también con la Figura 30 - selecciona un conjunto 3220 de modos de predicción candidatos que son un subconjunto del conjunto original (completo) de modos de predicción, posiblemente con algunos modos adicionales. Estos se proporcionan al selector de intra modo 520 que selecciona un modo de predicción para su uso con respecto al bloque actual de muestras a predecir y proporciona esto como un modo de predicción seleccionado al intra predictor 530. El intra predictor 530 usa el modo de predicción seleccionado 3230 de acuerdo con las muestras de referencia 3240 en la memoria intermedia de muestras de referencia para generar muestras previstas 3250.

El selector de modo intra 520 también proporciona información relacionada con el modo seleccionado (como información 3260 al controlador 343). El controlador 343 también puede recibir información 3270 desde el selector de modo candidato 3210 que define la selección de modos candidatos y/o cualquier mapeo entre modos adicionales y modos originales no usados. El controlador 343 codifica información 3280 para su inclusión en los datos codificados, para representar el selector de modo mediante el intra selector y/o cualquier mapeo realizado por el selector de modo candidato.

Por lo tanto, la Figura 32 proporciona un ejemplo de un aparato de codificación de imágenes que comprende:

un controlador (343, 2900, 2910, 3000, 3020) configurado para seleccionar, de un conjunto de direcciones de predicción, un conjunto de direcciones de predicción candidatas como un subconjunto del conjunto de direcciones de predicción, para una región de imagen actual de una imagen actual en dependencia de una o más propiedades de un grupo de muestras de referencia de la imagen actual aplicables a la región de imagen actual; y

un predictor de intra imagen (530) configurado para predecir muestras de la región de imagen actual con respecto a una o más del grupo de muestras de referencia de la misma imagen de acuerdo con una dirección de predicción entre la muestra actual y una posición de referencia entre las muestras de referencia;

en el que el predictor de intra imagen está configurado para seleccionar la dirección de predicción para la región de imagen actual del conjunto de direcciones de predicción candidatas.

Por ejemplo, el controlador puede configurarse para codificar datos que identifican la dirección de predicción seleccionada para cada muestra o región de la imagen.

La Figura 33 muestra una disposición similar en el contexto de un aparato de decodificación, en el que el controlador 343 responde a información codificada que define uno o ambos de: un modo de predicción y un conjunto candidato de modos de predicción. El controlador pasa esta información al selector de modo intra 520 y al selector de modo de candidato. El selector de modo intra 4520 selecciona a continuación un modo apropiado del conjunto de candidatos puesto a disposición por el selector de modo candidato. Otros aspectos de la operación del aparato son similares a los descritos anteriormente con referencia a la Figura 32.

Por lo tanto, la Figura 33 proporciona un ejemplo de un aparato de decodificación de imágenes que comprende: un controlador (343, 2900, 2910, 3000, 3020) configurado para seleccionar, de un conjunto de direcciones de predicción, un conjunto de direcciones de predicción candidatas como un subconjunto del conjunto de direcciones de predicción, para una región de imagen actual de una imagen actual en dependencia de una o más propiedades de un grupo de muestras de referencia de la imagen actual aplicables a la región de imagen actual; y

un predictor de intra imagen (530) configurado para predecir muestras de la región de imagen actual con respecto a una o más del grupo de muestras de referencia de la misma imagen de acuerdo con una dirección de predicción entre la muestra actual y una posición de referencia entre las muestras de referencia; en el que el predictor de intra imagen está configurado para seleccionar la dirección de predicción para la región de imagen actual del conjunto de direcciones de predicción candidatas.

Por ejemplo, el controlador puede configurarse para detectar datos codificados que identifican la dirección de predicción seleccionada para cada muestra o región de la imagen.

La Figura 34 es un diagrama de flujo esquemático que ilustra un método de codificación de imágenes que comprende:

seleccionar (en una etapa 3400), de un conjunto de direcciones de predicción, un conjunto de direcciones de predicción candidatas como un subconjunto del conjunto de direcciones de predicción, para una región de imagen actual de una imagen actual en dependencia de una o más propiedades de un grupo de muestras de referencia de la imagen actual aplicables a la región de imagen actual;

seleccionar (en una etapa 3410) una dirección de predicción para la región de imagen actual del conjunto de direcciones de predicción candidatas; y

predecir por intra-imagen (en una etapa 3420) muestras de la región de imagen actual con respecto a una o más del grupo de muestras de referencia de la misma imagen de acuerdo con una dirección de predicción entre la muestra actual y una posición de referencia entre las muestras de referencia.

La Figura 35 es un diagrama de flujo esquemático que ilustra un método de decodificación de imágenes que comprende:

seleccionar (en una etapa 3500), de un conjunto de direcciones de predicción, un conjunto de direcciones de predicción candidatas como un subconjunto del conjunto de direcciones de predicción, para una región de imagen actual de una imagen actual en dependencia de una o más propiedades de un grupo de muestras de referencia de la imagen actual aplicables a la región de imagen actual;

seleccionar (en una etapa 3510) una dirección de predicción para la región de imagen actual del conjunto de direcciones de predicción candidatas; y

predecir por intra-imagen (en una etapa 3520) muestras de la región de imagen actual con respecto a una o más del grupo de muestras de referencia de la misma imagen de acuerdo con una dirección de predicción entre la muestra actual y una posición de referencia entre las muestras de referencia.

La Figura 36 es un diagrama de flujo esquemático que ilustra un método de codificación de imágenes que comprende:

seleccionar (en una etapa 3600), de un conjunto de modos de predicción, un modo de predicción para la predicción de una región actual de una imagen actual; y

predecir por intra-imagen (en una etapa 3610) de muestras de la región actual con respecto a una o más del grupo de muestras de referencia de la misma imagen de acuerdo con una dirección de predicción, definida por el modo de predicción seleccionado, entre una muestra actual a predecir y una posición de referencia entre las muestras de referencia;

en el que el conjunto de modos de predicción comprende al menos un modo de predicción curvo que define una dirección de predicción que tiene una dirección entre la muestra actual y la posición de referencia que varía con una ubicación, dentro de la región actual, de la muestra actual a predecir.

El aparato de las Figuras 1-8 y 23, que opera de acuerdo con este método, proporciona un ejemplo de un aparato de codificación de imágenes que comprende:

un controlador configurado para seleccionar, de un conjunto de modos de predicción, un modo de predicción para la predicción de una región actual de una imagen actual; y

un predictor de intra-imagen configurado para predecir muestras de la región actual con respecto a una o más del grupo de muestras de referencia de la misma imagen de acuerdo con una dirección de predicción, definida por el modo de predicción seleccionado, entre una muestra actual a predecir y una posición de referencia entre las muestras de referencia;

La Figura 37 es un diagrama de flujo esquemático que ilustra un método de decodificación de imágenes que comprende:

seleccionar (en una etapa 3700), de un conjunto de modos de predicción, un modo de predicción para la predicción de una región actual de una imagen actual; y

predecir por intra-imagen (en una etapa 3710) de muestras de la región actual con respecto a una o más del grupo de muestras de referencia de la misma imagen de acuerdo con una dirección de predicción, definida por el modo de predicción seleccionado, entre una muestra actual a predecir y una posición de referencia entre las muestras de referencia;

El aparato de las Figuras 1-8 y 23, que opera de acuerdo con este método, proporciona un ejemplo de un aparato de decodificación de imágenes que comprende:

La Figura 38 representa esquemáticamente un ejemplo de imagen distorsionada, tal como la llamada imagen proyectada equirrectangular (ERP). Esta tiene distorsiones de curvatura conocidas o detectables que pueden adaptarse apropiadamente mediante un conjunto de modos curvos de la Figura 39a para su uso con una sección superior de la imagen y un conjunto de modos curvos de la Figura 39b para su uso con una sección inferior de la imagen. Por ejemplo, la función no lineal (que indica la cantidad de curvatura) podría variar de acuerdo con la distancia de una región actual desde la línea central horizontal de la imagen para aumentar la curvatura hacia las periferias superior e inferior de la imagen.

En la medida en que se haya descrito que las realizaciones de la divulgación se implementan, al menos en parte, mediante un aparato de procesamiento de datos controlado por software, se apreciará que un medio legible por máquina no transitorio que porta dicho software, tal como un disco óptico, un disco magnético, una memoria de semiconductores o similar, también se considera que representa una realización de la presente divulgación. De manera similar, también se considera que una señal de datos que comprende datos codificados generados de acuerdo con los métodos discutidos anteriormente (ya estén incorporados o no en un medio legible por máquina no transitorio) representa una realización de la presente divulgación.

Claims

REIVINDICACIONES

1. Un aparato de codificación de imágenes que comprende:

un controlador (343, 3210) configurado para seleccionar, de un conjunto de direcciones de predicción, un conjunto de direcciones de predicción candidatas como un subconjunto del conjunto de direcciones de predicción, para una región de imagen actual de una imagen actual en dependencia de una o más propiedades de un grupo de muestras de referencia de la imagen actual aplicables a la región de imagen actual, en donde la una o más propiedades del grupo de muestras de referencia representan al menos la disponibilidad de muestras de referencia para la predicción de la región de imagen actual; y

en el que el predictor de intra-imagen está configurado para seleccionar la dirección de predicción para la región de imagen actual del conjunto de direcciones de predicción candidatas; y

en el que el controlador está configurado para complementar el conjunto de direcciones de predicción candidatas con una o más direcciones de predicción adicionales que no forman parte del conjunto de direcciones de predicción, estando asignados a la una o más direcciones de predicción adicionales números de modo adicionales mediante un mapeador de número de modo mediante mapeos a partir de modos originales correspondientes a primeras direcciones de predicción del conjunto de direcciones de predicción que no se usan;

en donde la una o más direcciones de predicción adicionales comprenden una dirección de predicción que radica entre un par respectivo de direcciones de predicción en el conjunto de direcciones de predicción candidatas.

2. Aparato de acuerdo con la reivindicación 1, en el que la una o más propiedades representan además al menos una de la lista que consiste en:

i. actividad de imagen del grupo de muestras de referencia, ponderándose la selección del subconjunto de las direcciones de predicción hacia las muestras de referencia en el grupo de muestras de referencia que tienen actividad de imagen superior;

ii. posición de la región de imagen actual dentro de una foto.

3. Aparato de acuerdo con la reivindicación 1, en el que:

el conjunto de direcciones de predicción tiene cada una identificadores de dirección asociados; y

el controlador está configurado para asignar la una o más direcciones de predicción adicionales a respectivos identificadores de dirección asociados con direcciones de predicción que están en el conjunto de direcciones de predicción, pero no en el subconjunto de direcciones de predicción.

4. Aparato de acuerdo con la reivindicación 1, en el que la una o más direcciones de predicción adicionales comprenden, además

(i) una dirección de predicción que tiene una dirección, entre una muestra actual a predecir y una posición de referencia entre las muestras de referencia, que varía con una ubicación, dentro de la región actual, de la muestra actual a predecir

5. Aparato de acuerdo con la reivindicación 1, en el que el conjunto de direcciones de predicción candidatas incluye al menos una dirección de predicción horizontal y una dirección de predicción vertical.

6. Un aparato de decodificación de imágenes que comprende:

7. Aparato de acuerdo con la reivindicación 6, en el que la una o más propiedades representan además al menos una de la lista que consiste en:

ii. posición de la región de imagen actual dentro de una foto.

8. Aparato de acuerdo con la reivindicación 6, en el que:

9. Aparato de acuerdo con la reivindicación 6, en el que la una o más direcciones de predicción adicionales comprenden, además:

10. Aparato de acuerdo con la reivindicación 6, en el que el conjunto de direcciones de predicción candidatas incluye al menos una dirección de predicción horizontal y una dirección de predicción vertical.

11. Aparato de almacenamiento, captura, transmisión o recepción de vídeo que comprende el aparato de acuerdo con la reivindicación 1 o la reivindicación 6.

12. Un método de codificación de imágenes que comprende:

seleccionar (3400), de un conjunto de direcciones de predicción, un conjunto de direcciones de predicción candidatas como un subconjunto del conjunto de direcciones de predicción, para una región de imagen actual de una imagen actual en dependencia de una o más propiedades de un grupo de muestras de referencia de la imagen actual aplicables a la región de imagen actual, en donde la una o más propiedades del grupo de muestras de referencia representan al menos la disponibilidad de muestras de referencia para la predicción de la región de imagen actual; complementar el conjunto de direcciones de predicción candidatas con una o más direcciones de predicción adicionales que no forman parte del conjunto de direcciones de predicción;

seleccionar (3410) una dirección de predicción para la región de imagen actual del conjunto de direcciones de predicción candidatas; y

predecir por intra-imagen (3420) muestras de la región de imagen actual con respecto a una o más del grupo de muestras de referencia de la misma imagen de acuerdo con la dirección de predicción entre la muestra actual y una posición de referencia entre las muestras de referencia; estando asignados a la una o más direcciones de predicción adicionales números de modo adicionales mediante un mapeador de número de modo mediante mapeos a partir de modos originales correspondientes a primeras direcciones de predicción del conjunto de direcciones de predicción que no se usan;

13. Un método de decodificación de imágenes que comprende:

seleccionar (3500), de un conjunto de direcciones de predicción, un conjunto de direcciones de predicción candidatas como un subconjunto del conjunto de direcciones de predicción, para una región de imagen actual de una imagen actual en dependencia de una o más propiedades de un grupo de muestras de referencia de la imagen actual aplicables a la región de imagen actual, en donde la una o más propiedades del grupo de muestras de referencia representan al menos la disponibilidad de muestras de referencia para la predicción de la región de imagen actual; complementar el conjunto de direcciones de predicción candidatas con una o más direcciones de predicción adicionales que no forman parte del conjunto de direcciones de predicción;

seleccionar (3510) una dirección de predicción para la región de imagen actual del conjunto de direcciones de predicción candidatas; y

predecir por intra-imagen (3520) muestras de la región de imagen actual con respecto a una o más del grupo de muestras de referencia de la misma imagen de acuerdo con la dirección de predicción entre la muestra actual y una posición de referencia entre las muestras de referencia; estando asignados a la una o más direcciones de predicción adicionales números de modo adicionales mediante un mapeador de número de modo mediante mapeos a partir de modos originales correspondientes a primeras direcciones de predicción del conjunto de direcciones de predicción que no se usan;

14. Software informático que, cuando se ejecuta por un ordenador, hace que el ordenador lleve a cabo un método de acuerdo con la reivindicación 12 o la reivindicación 13.