BRPI0706214B1

BRPI0706214B1 - Método de codificação e decodificação de vídeo e aparelhos para os mesmos

Info

Publication number: BRPI0706214B1
Application number: BRPI0706214-1A
Authority: BR
Inventors: Masayuki Tanimoto; Toshiaki Fujii; Kenji Yamamoto; Masaki Kitahara; Hideaki Kimata; Shinya Shimizu; Kazuto Kamikura; Yoshiyuki Yashima
Original assignee: Nippon Telegraph And Telephone Corporation; National University Corporation Nagoya University
Priority date: 2006-01-05
Filing date: 2007-01-04
Publication date: 2020-02-11
Also published as: US20100220784A1; CN101361371B; TW200806040A; ES2388080T3; KR20080078697A; EP1971155B1; JPWO2007077989A1; BRPI0706214A2; RU2384971C1; CA2634050C; JP5234587B2; RU2008125839A; TWI364992B; US8451894B2; CA2634050A1; KR100977255B1; EP1971155A4; CN101361371A; EP1971155A1; WO2007077989A1

Abstract

método de codificação e decodificação de vídeo, aparelhos para os mesmos, programas para os mesmos e meios de armazenamento para armazenar os programas. a presente invenção refere-se ao uso de compensação paralaxe que realiza previsão pelo uso de paralaxe entre as imagens de vídeo, as imagens de vídeo são codificadas como uma imagem de vídeo única. é ajustada paralaxe de referência para uma imagem-alvo a ser codificada, em que a paralaxe de referência é estimada usando uma imagem de referência; é ajustada divisão de área em uma estrutura de imagem; é ajustado o deslocamento paralaxe para cada área dividida, em que o deslocamento paralaxe é a diferença entre a paralaxe de diferença e a paralaxe para a compensação paralaxe; são codificados os dados de divisão de área; e são codificados os dados para indicar o deslocamento paralaxe. durante a decodificação, é ajustada a paralaxe de referência para uma imagem-alvo a ser decodificada, em que é estimada usando uma imagem de referência; são decodificados dados para indicar divisão de área, que estão incluídos em dados codificados; e são decodificados os dados de deslocamento paralaxe, que estão incluídos nos dados codificados, para cada área indicada pelos dados de divisão de área.

Description

Relatório Descritivo da Patente de Invenção para MÉTODO DE CODIFICAÇÃO E DECODIFICAÇÃO DE VÍDEO E APARELHOS PARA OS MESMOS.

Campo da Técnica [001] A presente invenção refere-se a técnicas para codificação e decodificação de imagens de vídeo de múltiplos pontos de vista.

[002] É reivindicada a prioridade do Pedido de Patente N^o JP 2006-000393, depositado em 05 de janeiro de 2006, cuja descrição encontra-se incorporada ao presente à guisa de referência. Antecedentes da Técnica [003] As imagens de vídeo de múltiplos pontos de vista são imagens de vídeo obtidas pela fotografia do objeto e fundo das mesmas usando uma pluralidade de câmeras em diferentes posições. Abaixo, uma imagem de vídeo obtida por uma única câmera é chamada uma imagem de vídeo bidimensional, e um conjunto de imagens de vídeo bidimensionais obtido pela fotografia do mesmo objeto e antecedente do mesmo é chamado uma imagem de vídeo de múltiplos pontos de vista. Há uma forte correlação entre as imagens de vídeo bidimensionais (de câmeras diferentes) incluídas na imagem de vídeo de múltiplos pontos de vista. Se as câmeras estiverem sincronizadas umas com as outras, as estruturas (das câmeras) correspondentes ao mesmo tempo tiverem capturado o objeto e o fundo do mesmo totalmente no mesmo estado, de maneira que haja uma forte correlação entre as câmeras.

[004] Primeiro, serão apresentadas as técnicas convencionais relativas à codificação de imagens de vídeo bidimensionais. Em muitos métodos conhecidos de codificação de imagens de vídeo bidimensionais, como, por exemplo, H.264, MPEG-4, MPEG-2 (que são padrões de codificação internacionais), e similares, é realizada a codificação altamente eficiente por meio de compensação de movimento, trans

Petição 870190039726, de 26/04/2019, pág. 5/33

2/18 formação ortogonal, quantização, codificação de extensão variável ou similar.

[005] Por exemplo, em H.264, cada estrutura I pode ser codificada por meio de correlação intra-estrutura; cada estrutura P pode ser codificada por meio de correlação intra-estrutura juntamente com uma pluralidade de estruturas anteriores; cada estrutura B pode ser codificada por meio de correlação intra-estrutural juntamente com uma pluralidade de estruturas anteriores ou futuras estruturas.inter-estrutura [006] Apesar do documento de não-patente I descrever as técnicas H.264 em detalhe, o perfil do mesmo será descrito baixo. Em cada estrutura I, a estrutura é dividida em blocos (chamados macroblocos, o tamanho de cada bloco é de 16x16 (pixels)), e é realizada a previsão de estrutura (intraprevisão) em cada macro-bloco. Na intraprevisão, cada macro-bloco é também dividido em blocos menores (denominados sub-blocos, abaixo), e pode ser aplicado um método de intracodificação individual em cada sub-bloco.

[007] Em cada estrutura P, pode ser realizada intraprevisão ou inter-prediction (previsão inter-estrutura) em cada macro-bloco. A intraprevisão aplicada em uma estrutura P é similar àquela aplicada a estrutura I. Na inter-prediction, é realizada a compensação de movimento. Ainda na compensação de movimento, cada macro-bloco é dividido em blocos menores, e cada sub-bloco pode ser dotado de um vetor de movimento individual e de uma imagem de referência individual.

[008] Ainda na estrutura B, pode ser realiza a intraprevisão ou inter-prediction. Na inter-prediction da estrutura B, além de uma estrutura anterior, uma estrutura futura pode ser referida como uma imagem de referência em compensação de movimento. Por exemplo, ao codificar uma seqüência de estrutura de IvBvBvP, as estruturas podem ser codificadas na ordem kP^B^B. Ainda, em cada estru

Petição 870190039726, de 26/04/2019, pág. 6/33

3/18 tura B, a compensação do movimento pode ser realizada por referência a uma estrutura I ou P. Adicionalmente, do mesmo modo que a estrutura P, cada sub-bloco (obtido pela divisão de um macro-bloco) pode ser dotado de um vetor de movimento individual.sub-blocos [009] Ao realizar uma inter- ou intraprevisão, é obtido um resíduo de previsão. Em cada macro-bloco, um bloco de resíduo de previsão é sujeitado a DCT (transformar cosseno discreto), de maneira a realizar a quantização. Os valores quantizados obtidos de coeficientes DCT são então sujeitados a codificação de extensão variável.

[0010] É conhecido um método para codificar imagens de vídeo de múltiplos pontos de vista, as imagens de vídeo de múltiplos pontos de vista são codificadas com alta eficiência por meio de compensação paralaxe na qual é aplicada a compensação de movimento em imagens obtidas por câmeras diferentes ao mesmo tempo. Aqui paralaxe é a diferença entre as posições, para as quais é projetado o mesmo ponto em um objeto, em um plano de imagem ou câmeras que estejam dispostas em posições diferentes.

[0011] A Figura 9 é uma vista esquemática ilustrando o conceito de paralaxe gerado entre tais câmeras. Na vista esquemática, um plano de imagem de câmeras, cujos eixos geométricos ópticos são paralelos um ao outro, é bloqueado para baixo verticalmente. Geralmente, tais pontos, para os quais é projetado o mesmo ponto em um objeto, em um plano de imagem de câmeras diferentes, são chamados pontos correspondentes. Um paralaxe pode ser representado como uma diferença posicional no plano de imagem relevante, o mesmo pode ser representado como dados de vetor bidimensional.

[0012] Na compensação paralaxe, o ponto correspondente em uma imagem de uma câmera de referência, que corresponde a um pixel-alvo em uma imagem de uma câmera-alvo para a codificação relevante, é estimado usando uma imagem de referência, e o valor do

Petição 870190039726, de 26/04/2019, pág. 7/33

4/18 pixel do pixel-alvo é previsto pelo uso de um valor de pixel atribuído ao ponto correspondente. Abaixo, tal paralaxe estimado é também chamado paralaxe para conveniência da explanação.

[0013] O documento de não-patente 2 descreve um método de codificação usando compensação paralaxe, e em tal método, dados paralaxe e cada resíduo de previsão são codificados com relação ao pixels de uma imagem-alvo a ser codificada. Especificamente, no método relevante, a compensação paralaxe é realizada para cada bloco como uma unidade, onde tal paralaxe para cada bloco de unidade é representada usando um vetor bidimensional. A Figura 10 é uma vista esquemática usando um vetor paralaxe. Isto é, nesse método os dados paralaxe são codificados como vetor bidimensional e o residual de previsão relevante. Como esse método não usa parâmetros de câmera na codificação, é eficaz quando os parâmetros de câmera são desconhecidos.

[0014] Além disso, quando há uma pluralidade de imagens de referência obtidas por câmeras diferentes, a compensação paralaxe pode ser realizada usando uma técnica de imagem de ponto de vista arbitrário. O documento de não-patente 3 descreve a compensação paralaxe usando uma técnica de imagem de ponto de vista arbitrário. Especificamente, cada valor de pixel de uma imagem obtida por uma câmera-alvo para a codificação relevante é previsto por meio de interpolação usando os valores de pixel dos pontos correspondentes (pertencentes a câmeras diferentes) que correspondam ao pixel relevante. A Figura 11 é uma vista esquemática usando tal interpolação. Na interpolação, o valor de pixel m em uma imagem-alvo a ser codificada é previsto pela formação de interpolação entre m' e m das imagens de referência 1 e 2, onde os pixels m' e m correspondem ao pixel m.

[0015] Quando há duas ou mais imagens de referência obtidas por câmeras diferentes (conforme descrito no Documento de Patente 3), a

Petição 870190039726, de 26/04/2019, pág. 8/33

5/18 paralaxe de cada pixel de uma imagem-alvo (a ser codificada) para cada imagem de referência pode ser estimada sem o uso de imagemalvo. A Figura 12 é uma vista esquemática para ilustrar o conceito de tal estimativa de paralaxe.

[0016] Conforme ilustrado na Figura 12, na verdadeira paralaxe, os valores de pixel dos pontos correspondentes entre as imagens de referência relevante devem ser quase idênticas umas as outras. Portanto, em muitos métodos de estimativa de paralaxe, com relação a cada das várias profundidades, os valores de pixel dos pontos correspondentes entre as imagens de referência são comparados uns aos outros, e a paralaxe pode ser estimada com base na profundidade que conduz os valores de pixel mais próximos. Tal processo pode ser aplicado a cada pixel de uma imagem-alvo a ser codificada.

[0017] Conforme acima descrito, quando há duas ou mais imagens de referência obtidas por câmeras diferentes, e é possível a estimativa de paralaxe na face de decodificação, então a compensação paralaxe pode ser realizada no lado de decodificação usando dados paralaxe para cada pixel, sem prover dados paralaxe, que são explicitamente codificados no lado de codificação, para o lado de decodificação.

[0018] Documento de não-patente 1: ITU-T

Rec.H.264H.264/ISSO/IEC 11496-10, Codificação de Vídeo Avançada, Minuta Final de Comitê, Documento JVT-E022, setembro de 2002. [0019] Documento de não-patente 2: Hediaki Kimata e Masaki Kitahara, Resultados Preliminares em codificação de vider de múltiplas vistas (3DAV), Reunião de Redmond documento M10976 MPEG, julho de 2004.

[0020] Documento de não-patente 3: Masayuki Tanimoto, Toshiaki Fujii, Resposta ao Chamado para Evidencia em Codificação de Vídeo de Múltiplas Vistas, documento Mxxxxx Reunião de Hong Kong, janeiro de 2005.

Petição 870190039726, de 26/04/2019, pág. 9/33

6/18 [0021] Nas técnicas convencionais, quando há duas ou mais imagens de referência obtidas por câmeras diferentes, e estimativa paralaxe é possível no lado de decodificação, então a compensação paralaxe pode ser realizada na face de decodificação pelo uso de dados paralaxe para cada pixel, sem proporcionar dados paralaxe, que estão explicitamente codificados no lado de codificação, para o lado de decodificação. Tal paralaxe com relação a uma imagem-alvo a ser codificada ou decodificada, que pode ser estimada no lado de codificação ou decodificação sem o uso de imagem-alvo (para a decodificação, sem decodificar a imagem relevante), é chamada paralaxe de referência.

[0022] Contudo, a paralaxe de referência, que é estimada no lado de decodificação, é uma ótima em razão da eficiência da previsão, e a quantidade do código atribuído à previsão relevante residual pode ser aumentada. Quando a paralaxe para maximizar a eficiência da previsão é computada no lado de codificação, e a diferença (chamada abaixo deslocamento paralaxe) entre a paralaxe computada e a paralaxe de referência é codificada para cada pixel, pode ser aperfeiçoada a eficiência da previsão, aperfeiçoando por meio disso a eficiência da previsão com relação à resíduo de previsão.

[0023] Contudo, em tal técnica que pode ser facilmente antecipada, à medida que o deslocamento paralaxe é codificado para cada pixel, aumenta a quantidade de código para os dados paralaxe, de maneira que a eficiência da codificação não pode ser alta.

Descrição da Invenção [0024] Para solucionar o problema acima, é um objetivo da presente invenção diminuir a quantidade do código de dados paralaxe sem fazer sacrificar consideravelmente a precisão da compensação paralaxe.

[0025] A característica mais evidente da presente invenção em

Petição 870190039726, de 26/04/2019, pág. 10/33

7/18 comparação com as técnicas convencionais é que a fim de solucionar os problemas acima descritos, são realizados um processo de determinação de divisão de bloco e um processo de codificação dos dados de divisão de bloco determinados e dados de deslocamento paralaxe para cada bloco, e tais dados são lidados como dados codificados.

[0026] Em um primeiro modo da codificação de vídeo e métodos de decodificação da presente invenção, com base na divisão de área, que é ajustada de acordo com a característica de uma imagem-alvo a ser codificada, podem ser codificados os dados de deslocamento paralaxe para cada área dividida.

[0027] Geralmente, o deslocamento paralaxe é dotado de correlação espacial em uma estrutura de imagem. Portanto, quando é ajustada a divisão de área ajustada, e é codificado o deslocamento paralaxe para cada área dividida, então a quantidade de dados paralaxe pode ser reduzida sem degradar a eficiência de previsão de compensação paralaxe.

[0028] No lado de codificação de vídeo, em uma etapa de ajuste de referência paralaxe, pode ser codificada a paralaxe para uma imagem-alvo a ser codificada (isto é, paralaxe de referência) é ajustada usando os dados já codificados (isto é, imagem de referência), e em uma etapa de ajuste de divisão de área, é ajustada a divisão de área em uma estrutura da imagem-alvo. Em uma etapa de ajuste de deslocamento paralaxe, o deslocamento paralaxe é ajustado para cada área dividida na divisão de área. Adicionalmente, em uma etapa de codificação de dados de divisão de dados, são codificados os dados de divisão de área para indicar a divisão de área, e em uma etapa de codificação de dados de deslocamento paralaxe, são codificados os dados de deslocamento paralaxe.

[0029] Como a paralaxe de referência ajustada na etapa de ajuste da paralaxe de referência, (1) a paralaxe estimada usando imagens de

Petição 870190039726, de 26/04/2019, pág. 11/33

8/18 referência no princípio conforme ilustrado na Figura 12 (referir a um terceiro modo como explicado posteriormente); (ii) paralaxe com base em uma imagem paralaxe ou um modelo tridimensional, que é codificado por outro dispositivo de maneira a, por exemplo, gerar uma imagem de ponto de vista arbitrário, e enviar para o lado de decodificação; ou (iii) paralaxe provida por outro método.

[0030] No lado de decodificação, em uma etapa de ajuste de paralaxe de referência, similar ao lado de codificação, a paralaxe de referência para uma imagem-alvo a ser decodificada é ajustada usando dados já decodificados (isto é, imagem de referência). Em uma etapa de decodificação de dados de divisão de área, são decodificados os dados de divisão de área, e em uma etapa de decodificação de dados de deslocamento paralaxe, são decodificados os deslocamento paralaxe para cada área de acordo com os dados de divisão de área.

[0031] Um segundo modo de métodos de codificação e decodificação de vídeo da presente invenção é basicamente similar ao primeiro modo acima descrito. Contudo, no segundo modo, é formada uma divisão de área de maneira a gerar blocos retangulares. Especificamente, a divisão de bloco retangular (referir à Figura 10 explicada posteriormente) é definida para cada macro-bloco. Os dados para tal divisão de bloco podem ser eficientemente codificados pelo uso de técnica de codificação de entropia conhecida (por exemplo, codificação de entropia em H.264).

[0032] Um terceiro modo de métodos de codificação e decodificação de vídeo da presente invenção é basicamente similar aos primeiro e segundo modos acima descritos. Contudo, no terceiro modo, é usada a paralaxe de referência, que é estimada por uma pluralidade de imagens de referência sem usar uma imagem-alvo a ser codificada (isto é, de acordo com o princípio acima descrito conforme ilustrado pela Figura 12). Quando a paralaxe de referência é estimada usando

Petição 870190039726, de 26/04/2019, pág. 12/33

9/18 imagens de referência conforme explicado acima, pode ser estimada pelo uso apenas de dados que já tenham sido enviados para o lado de decodificação. Portanto, é possível não gerar dados adicionais a serem codificados, de maneira a estimar a paralaxe de referência.

[0033] De acordo com a presente invenção, nos métodos de codificação e decodificação de vídeo para estimar paralaxe pelo uso de imagens de referência, é usada a correlação espacial dos dados de deslocamento paralaxe, de maneira que a quantidade de código de deslocamento paralaxe possa ser reduzida sem degradar a eficiência de previsão na compensação paralaxe, por meio disso aperfeiçoando a eficiência de codificação total.

Breve Descrição dos Desenhos [0034] A Figura 1 é um diagrama ilustrando um aparelho de codificação de vídeo como uma modalidade da presente invenção.

[0035] A Figura 2 é um diagrama ilustrando a relação entre câmeras na modalidade.

[0036] A Figura 3 é um diagrama ilustrando a disposição das câmeras na modalidade.

[0037] A Figura 4 é um fluxograma de codificação na modalidade. [0038] A Figura 5 é um fluxograma detalhado da etapa S106 na Figura 4.

[0039] A Figura 6 é um diagrama ilustrando exemplos de divisão de bloco em cada macro-bloco.

[0040] A Figura 7 é um diagrama ilustrando um aparelho de codificação de vídeo na modalidade.

[0041] A Figura 8 é um diagrama de decodificação na modalidade. [0042] A figura 9 é uma vista esquemática ilustrando o conceito de paralaxe gerada entre as câmeras.

[0043] A Figura 10 é uma vista esquemática ilustrando um vetor paralaxe.

Petição 870190039726, de 26/04/2019, pág. 13/33

10/18 [0044] A Figura 11 é uma vista esquemática ilustrando interpolação de valor de pixel.

[0045] A Figura 12 é uma vista esquemática ilustrando o conceito de estimativa paralaxe.

Melhores Modos para Realizar a Invenção [0046] A Figura 1 é um diagrama ilustrando a estrutura de um aparelho de codificação de vídeo como uma modalidade da presente invenção.

[0047] O aparelho de codificação de vídeo 100 inclui uma parte de entrada de imagem 101 na qual é entrada cada imagem original da câmera C (isto é, imagem-alvo a ser codificada), uma parte de entrada de imagem de referência 102 na qual são entradas as imagens decodificadas (como imagens de referência) das câmeras A e B; uma memória de imagem de referência 103 para armazenar cada imagem de referência; uma parte de ajuste de paralaxe de referência 104 para obter paralaxe de referência pelo uso de imagens de referência; uma parte de ajuste de deslocamento paralaxe 105 para obter deslocamento paralaxe; uma parte de ajuste de divisão de bloco 106 para ajustar um estado de divisão de bloco, uma parte de codificação de dados de divisão de bloco 106 para codificar dados de divisão de bloco de codificação; uma parte de codificação de dados de deslocamento paralaxe 108 para codificar dados de deslocamento paralaxe; e uma parte de previsão de codificação residual 109 para codificar o previsão relevante residual.

[0048] A Figura 2 é um diagrama ilustrando relação de referência entre as câmeras na presente modalidade. Conforme ilustrado na Figura 2, na presente modalidade para codificar imagens de vídeo de múltiplos pontos de vista obtidas por três câmeras, as imagens de vídeo da câmera C são codificados usando imagens de decodificação das câmeras A e B, como imagens de referência.

Petição 870190039726, de 26/04/2019, pág. 14/33

11/18 [0049] As setas na Figura 2 representam as relações de referência em compensação paralaxe. A fim de codificar cada imagem da câmera C, as imagens decodificadas (das câmeras A e B) sendo dotadas do mesmo tempo de exibição são codificadas como imagens de referência. No processo relevante, uma imagem prevista é gerada pela computação de uma média entre os valores de pixel dos pontos correspondentes pertencentes às câmeras A e B (cada ponto correspondente é um pixel indicado pelo vetor que é proporcionado pela soma do vetor de deslocamento paralaxe relevante e o vetor paralaxe de referência).

[0050] A Figura 3 é um diagrama ilustrando a disposição das câmeras na presente modalidade. Na presente modalidade, conforme ilustrado na Figura 3, os pontos de vista das três câmeras se alinham ao longo de uma linha reta e intervalos regulares, e os eixos geométricos ópticos das câmeras são perpendiculares à linha reta. Isto é, os eixos geométricos ópticos das três câmeras são paralelos uns aos outros.

[0051] Além disso, o sistema de coordenada x-y no plano de imagem relevante pode ser obtido pela translação paralela (não é realizada nenhuma rotação ou similar) com relação à linha reta na qual as câmeras estão dispostas, e os pixels são formados pela divisão de cada eixo geométrico x e y do plano de imagem em intervalos regulares para cada câmera. Isto é, cada câmera é dotada da mesma resolução, e uma paralaxe de pixels P entre as câmeras C e A corresponde a uma paralaxe de pixels P entre as câmeras C e B.

[0052] A Figura 4 é um fluxograma de codificação na presente modalidade. A Figura 5 é um fluxograma detalhado da etapa S 106 na Figura 4.

[0053] Na presente modalidade, é usado um macro-bloco consistindo em pixels 16x16 (nas direções vertical e horizontal) como uma

Petição 870190039726, de 26/04/2019, pág. 15/33

12/18 unidade, e é atribuída a divisão (estado) de bloco em cada macrobloco. São codificados os dados de deslocamento paralaxe para cada bloco definido na divisão de bloco (simplesmente denominado bloco, por conveniência).

[0054] A paralaxe de referência é representada usando um vetor bidimensional. Portanto, no lado de decodificação (e no lado de codificação), um vetor bidimensional (isto é, paralaxe de referência) para cada imagem de referência é obtido para cada pixel, pelo uso da imagem de referência.

[0055] Por outro lado, é codificado um único deslocamento paralaxe (para a câmera A) representado por um vetor bidimensional para cada bloco. Aqui, similar à computação da paralaxe de referência, é presumida uma condição de restrição física na qual cada (paralaxe) vetor (usado para compensação paralaxe), que é proporcionada como a soma do vetor de paralaxe de referência e um vetor de paralaxe de referência para cada pixel de cada imagem de referência, designa a mesma posição do objeto. Nesse caso, se for conhecido o vetor de deslocamento paralaxe para a câmera A, é unicamente determinado o vetor de deslocamento paralaxe para outra câmera.

[0056] Em vez disso, o deslocamento paralaxe para cada imagem de referência pode ser computado independentemente e codificado sem presumir tal condição de restrição. Contudo, tal método pode ser facilmente implementado como uma variação da presente modalidade, e são omitidas explicações específicas do mesmo.

[0057] Há muitos estados de divisão de bloco possíveis aplicáveis a cada macro-bloco. A Figura 6 ilustra exemplos dos mesmos. Conforme ilustrado na Figura 6, Modo blk é um índice para indicar o tipo de divisão de bloco, e o número de blocos para cada Modo blk é indicado por maxBlk[Modo blk].

[0058] Sob as condições acima, a operação de codificação será

Petição 870190039726, de 26/04/2019, pág. 16/33

13/18 explicada com relação ao fluxograma da Figura 4.

[0059] Primeiro, uma imagem da câmera C é entrada na parte de entrada de imagem 101 (ver etapa S101), onde as imagens decodificadas, que pertencem às câmeras A e B e são dotadas do mesmo tempo de exibição, foram armazenadas na memória de imagem de referência 103 por via da parte de entrada de imagem de referência 102.

[0060] A seguir, as imagens decodificadas relevantes das câmeras A e B são entradas a partir da memória de imagem de referência 103 (ver etapa S102), e a paralaxe de referência para cada pixel de uma imagem-alvo a ser codificada é obtida para cada imagem de referência de entrada pelo uso das imagens de referência (ver etapa S103). Isto é, as duas imagens de referência, que pertencem às câmeras A e B, são entradas na parte de ajuste paralaxe de referência 104, e é obtida a paralaxe de referência para cada pixel da imagem-alvo da câmera C.

[0061] Portanto, são obtidos os dois vetores bidimensionais para cada pixel da imagem-alvo da câmera C. Para as coordenadas (x,y) no plano de imagem da câmera C (x e y são um inteiro que indicam um valor de coordenada do pixel relevante), os vetores paralaxe de referência para as câmeras A e B são respectivamente indicados dA[x,y] e dB[x,y].

[0062] Além disso, MBBlk é um índice para indicar cada macrobloco, e o número de macro-blocos é indicado por maxMBBlk.

[0063] Após o índice MBBlk para cada macro-bloco ser inicializado para zero (ver etapa S104), as etapas que seguintes (S105 e S111) são repetidamente aplicadas em cada macro-bloco ao mesmo tempo em que é adicionado 1 a cada índice MBBlk (ver etapa S110).

[0064] Primeiro, após a divisão de bloco (índice) o Modo blk é inicializado para zero (ver etapa S105), um custo de distorção de taxa para o macro-bloco relevante e a divisão de bloco Modo blk é compu

Petição 870190039726, de 26/04/2019, pág. 17/33

14/18 tado (ver etapa S106) ao mesmo tempo em que é adicionado l à divisão de bloco Modo blk (ver etapa S107), até que a divisão de bloco Modo blk alcance o valor de [índice máximo maxModo blk (ver etapa S108). Isto é, na parte de ajuste de deslocamento paralaxe 105, é computado o custo de distorção de taxa Custo MB para cada divisão de bloco Modo blk.

[0065] O custo de distorção de taxa Custo MB para cada divisão de bloco Modo blk é obtido pela computação de um custo de distorção de taxa Custo blk para cada bloco (o número total de blocos é indicado por maxBlk[Modo blk]), e pela computação da soma total dos custos de distorção de taxa de Custo blk.

[0066] O custo de distorção de taxa de Custo blk para cada bloco pode ser obtido como um valor mínimo do custo de distorção de taxa custo obtido ao usar um vetor de deslocamento paralaxe. Portanto, devem ser computados, para cada bloco, o vetor de deslocamento paralaxe para minimizar custo e o próprio custo'.

[0067] Aqui, a busca para o deslocamento paralaxe usado para codificar é realizada na adjacência da paralaxe de referência relevante. Isto é, e0,el,..., eN-1 são definidos como candidatos para o vetor de deslocamento paralaxe, e um processo de computação de custo de distorção de taxa para o vetor paralaxe dA[x,y]+en é repetido para n=0,1,...,N-1, de maneira a codificar o vetor paralaxe ótimo para o presente bloco.

[0068] Para computar o custo, primeiro, é computada a soma total SAD[en]dos valores absolutos da resíduo de previsão para o bloco relevante, que é obtida ao usar um vetor de deslocamento paralaxe en. Além disso, é também computada uma quantidade estimada R[en] do código do vetor de deslocamento paralaxe, que é obtido ao codificar um vetor de deslocamento paralaxe en. O custo é computado pela seguinte fórmula:

Petição 870190039726, de 26/04/2019, pág. 18/33

15/18

Custo = SAD[en] + ÀR[en] (1) [0069] A seguir, na parte de ajuste de divisão de bloco 106, a divisão de bloco melhor Modo blk para minimizar o custo de distorção de taxa Custo MB é computado para cada macro-bloco MBBlk (o vetor de deslocamento paralaxe correspondente já foi obtido).

[0070] A Figura 5 ilustra o processo detalhado da etapa S106.

[0071] Primeiro, o custo de distorção de taxa Custo MB do macrobloco relevante e o valor de índice do bloco blk são inicializados para zero (ver etapa S1061), e é obtido o vetor de deslocamento paralaxe para minimizar o custo de distorção de taxa de Custo blk do bloco blk (ver etapa S1062).

[0072] Após a obtenção do custo de distorção de taxa de Custo blk do bloco relevante é adicionado ao custo de distorção de taxa Custo MB do macro-bloco (ver etapa S1063), é adicionado l ao bloco blk, e são repetidas as etapas S1062 a S1064 até que o bloco blk alcance o número total maxBlk[Modo blk] de blocos (ver etapa S1065).

[0073] Quando o bloco blk alcança o número total maxBlk[Modo blk] de blocos, é determinado se o custo de distorção de taxa presentemente computado Custo MB do macro-bloco é menor do que o custo de distorção de taxa mínima computado minCusto MB do macro-bloco (ver etapa S1066). Se for menor, o custo de distorção de taxa Custo MB é armazenado como o custo de distorção de taxa mínima minCusto MB, e a divisão de bloco correspondente Modo blk é armazenada como a divisão de bloco ótima melhor Modo blk (ver etapa S1067).

[0074] De acordo com a operação acima, são obtidos os dados da divisão de bloco melhor Modo blk, os dados de deslocamento paralaxe (isto é o vetor de deslocamento paralaxe), e a resíduo de previsão gerado pela compensação paralaxe, que são usados para a compensação paralaxe do macro-bloco MBBlk. A seguir, são codificados os dados da divisão de bloco melhor Modo blk na parte de codificação

Petição 870190039726, de 26/04/2019, pág. 19/33

16/18 dos dados de divisão de bloco 107, e são codificados os dados de deslocamento paralaxe correspondentes ao melhor Modo blk na parte de codificação de dados de deslocamento paralaxe 108 (ver etapa S109).

[0075] Além disso, o resíduo de previsão correspondente aos dados de deslocamento paralaxe é codificada na parte previsão de codificação residual 109.

[0076] A figura 7 ilustra um aparelho de decodificação de vídeo na presente modalidade. O aparelho de decodificação de vídeo 200 inclui uma parte de decodificação de dados de divisão de bloco 201; uma parte de decodificação de dados de deslocamento paralaxe 202; uma parte de previsão de decodificação de residual 203, uma parte de compensação paralaxe 204 e uma memória de imagem de referência 205.

[0077] A Figura 8 é um fluxograma da decodificação usando o aparelho de decodificação de vídeo 200 na presente modalidade. O fluxograma ilustra a operação para decodificar uma estrutura da câmera C, e será explicado detalhadamente abaixo. Aqui, as estruturas das câmeras A e B do mesmo período foram antecipadamente decodificadas, e as imagens decodificadas foram armazenadas na memória de imagem de referência 205.

[0078] Primeiro, as imagens decodificadas relevantes das câmeras A e B são entradas a partir da memória de imagem de referência 205 (ver etapa S201), e a paralaxe de referência para cada pixel da imagem-alvo a ser codificada é obtida usando cada imagem de referência (ver etapa S202). Isto é, duas imagens de referência pertencentes às câmeras A e B são entradas na parte de compensação paralaxe 204, e é obtida a compensação paralaxe para cada pixel da imagem relevante da câmera C. Portanto, são obtidos os vetores bidimensionais para cada pixel na imagem da câmera C.

Petição 870190039726, de 26/04/2019, pág. 20/33

17/18 [0079] A seguir o índice MBBlk do macro-bloco é inicializado para zero (ver etapa S203), as etapas seguintes (S204 e S212) são repetidas para cada macro-bloco da uma estrutura relevante ao mesmo tempo em que é adicionado l ao MBBlk (ver etapa S211) (maxMBBlk indica o número de macro-blocos em uma estrutura). Portanto, é decodificada a uma estrutura relevante da câmera C.

[0080] Na decodificação de cada macro-bloco, primeiro, os dados de divisão de bloco melhor Modo blk para o macro-bloco MBBlk é decodificado pela parte de decodificação de dados de divisão de bloco 201 (ver etapa S204). A seguir, após o valor de índice de loco blk' ser inicializado para zero (ver etapa S205), são repedidas as etapas seguintes (S206 a S209) para cada bloco blk (maxBlk[Modo blk] indica o número máximo de bloco).

[0081] Primeiro, na parte de decodificação de dados de deslocamento paralaxe 202, são decodificados os dados de deslocamento paralaxe para o bloco blk (ver etapa S206), e é gerada uma imagem de previsão para o bloco blk usando os dados de deslocamento paralaxe e a paralaxe de referência (isto é, pela interpolação entre os valores de pixel das câmeras A e B) (ver etapa S207).

[0082] De acordo com o processo de repetição acima para o bloco blk, é gerada uma imagem prevista para o macro-bloco MBBlk. Portanto, a resíduo de previsão para o macro-bloco MBBlk é decodificada na parte de decodificação de resíduo de previsão 203, e a parte de compensação paralaxe 204 computa a soma da imagem prevista e a resíduo de previsão, obtendo, por meio disso, uma imagem decodificada do macro-bloco MBBlk (ver etapa S210).

[0083] A operação acima é repetida para cada macro-bloco na uma armação relevante (ver etapas S211 e S212), por meio disso decodificando a uma estrutura da câmera C.

[0084] Na presente modalidade, uma imagem da câmera C e codi

Petição 870190039726, de 26/04/2019, pág. 21/33

18/18 ficada por referência às outras câmeras (A e B). Contudo, tal caso de realização de codificação por referência a outras câmeras e outro caso de realização de compensação de movimento por referência a uma imagem decodificada da câmera C pode ser adaptativamente comutada em uma estrutura de imagem (isto é, para uma imagem).

[0085] Especificamente, a comutação entre a compensação paralaxe e a compensação de movimento pode ser realizada para cada bloco dividido ilustrado na Figura 6. Nesse caso, o lado de codificação de vídeo deveria codificar dados para indicar qual compensação paralaxe e compensação de movimento foi usada, e o lado de decodificação de vídeo deveria decodificar os dados.

[0086] Os processos de codificação e decodificação de vídeo acima descritos podem ser implementados pelo uso de um computador e um programa de software. Tal programa pode ser provido pelo armazenamento do mesmo em um meio de armazenamento legível de computador, ou através de uma rede.

Aplicabilidade Industrial [0087] Nos métodos de codificação e decodificação de vídeo para estimar paralaxe pelo uso de imagens de referência, são usados correlação espacial de dados de deslocamento paralaxe, de maneira que a quantidade de código do deslocamento paralaxe possa ser reduzido sem degradar a eficiência de previsão na compensação paralaxe, por meio disso aperfeiçoando a eficiência de codificação total.

Claims

1. Método de codificação de vídeo para codificar imagens de vídeo como uma imagem de vídeo de múltiplos pontos de vista pelo uso de compensação paralaxe, que realiza previsão pelo uso de paralaxe espacial entre as imagens de vídeo, o método compreendendo:

uma etapa de ajuste paralaxe de referência (S103) de ajuste paralaxe de referência para uma imagem-alvo a ser codificada, em que a paralaxe de referência é estimada usando imagens de referência sem o uso da imagem-alvo;

uma etapa de ajuste de divisão de área (S1067) de ajuste de divisão de área em uma estrutura de imagem;

uma etapa de ajuste de deslocamento paralaxe (S1062) de ajuste de deslocamento paralaxe para cada área dividida ajustada na etapa de ajuste de divisão de área, em que o deslocamento paralaxe é a diferença entre a paralaxe de referência e a paralaxe real usada para gerar uma imagem prevista para a compensação paralaxe, e tem um valor comum dentro de cada área dividida;

uma etapa de codificação de dados de divisão (S109) de dados de divisão de área de codificação para indicar a divisão de área na qual é ajustada na etapa de ajuste de divisão de área; e uma etapa de codificação de dados de deslocamento paralaxe (S109) de codificação de dados de deslocamento paralaxe para indicar o deslocamento paralaxe que é ajustado na etapa de ajuste de deslocamento paralaxe, o método de codificação de vídeo caracterizado pelo fato de que:

na etapa de ajuste de paralaxe de referência, a paralaxe de referência é ajustada para cada pixel na imagem-alvo a ser codificada; e o método de codificação de vídeo ainda compreende:

Petição 870190039726, de 26/04/2019, pág. 23/33

2/7 uma etapa de geração de imagem prevista de geração de uma imagem prevista para a compensação de paralaxe, para cada pixel da imagem-alvo, pela utilização da paralaxe real que é obtida para o pixel como uma unidade pela adição da paralaxe de ajuste de referência para o deslocamento de paralaxe que é ajustado para a área à qual o pixel pertence.

2. Método de codificação de vídeo, de acordo com a reivindicação 1, caracterizado pelo fato de que:

a divisão de área ajustada na etapa de ajuste de divisão de área é realizada por um método selecionado dentre uma pluralidade de métodos de divisão de área para realizar a divisão de área em blocos retangulares.

3. Método de codificação de vídeo, de acordo com a reivindicação 1, caracterizado pelo fato de que:

na etapa de geração de imagem prevista, a imagem prevista é gerada com base nos valores de pixel das imagens de referência.

4. Método de codificação de vídeo, de acordo com a reivindicação 3, caracterizado pelo fato de que:

na etapa de geração de imagem prevista, a imagem prevista é gerada computando uma média entre os valores de pixel das imagens de referência.

5. Método de decodificação de vídeo para decodificar imagens de vídeo como uma imagem de vídeo de múltiplos pontos de vista pelo uso de compensação paralaxe, que realiza previsão pelo uso de paralaxe espacial entre as imagens de vídeo, o método compreendendo:

uma etapa de ajuste de paralaxe de referência (S202) de ajustar uma paralaxe de referência para uma imagem-alvo a ser decodificada, em que a paralaxe de referência é estimada usando imagens de referência sem o uso da imagem-alvo;

Petição 870190039726, de 26/04/2019, pág. 24/33

3/7 uma etapa de decodificação de dados de divisão de área (S204) de decodificação de dados de divisão de área para indicar divisão de área, em que os dados de divisão de área estão incluídos em dados codificados; e uma etapa de decodificação de dados de deslocamento paralaxe (S206) de decodificação de dados de deslocamento paralaxe para cada área indicada pelos dados de divisão de área que são decodificados na etapa de decodificação de dados de divisão de área, em que os dados do deslocamento paralaxe estão incluídos nos dados codificados, e o deslocamento paralaxe é definido como a diferença entre a paralaxe de referência e a paralaxe real usada para gerar uma imagem prevista para a compensação paralaxe e tem um valor comum dentro de cada área indicada pelos dados de divisão de área, o método de decodificação de vídeo caracterizado pelo fato de que:

na etapa de ajuste de paralaxe de referência, a paralaxe de referência é ajustada para cada pixel na imagem-alvo a ser decodificada; e o método de decodificação de vídeo ainda compreende: uma etapa de geração de imagem prevista (S207) de geração da imagem prevista para a compensação de paralaxe, para cada pixel da imagem-alvo, pela utilização da paralaxe real que é obtida para o pixel como uma unidade pela adição da paralaxe de ajuste de referência para o deslocamento comum de paralaxe que é ajustada para a área à qual o pixel pertence.

6. Método de decodificação de vídeo, de acordo com a reivindicação 5, caracterizado pelo fato de que:

os dados de divisão de área decodificados na etapa de decodificação de dados de divisão de área indicam um método selecionado dentre uma pluralidade de métodos de divisão de área para reaPetição 870190039726, de 26/04/2019, pág. 25/33

4/7 lizar divisão de área em blocos retangulares.

7. Método de decodificação de vídeo, de acordo com a reivindicação 5, caracterizado pelo fato de que:

8. Método de decodificação de vídeo, de acordo com a reivindicação 6, caracterizado pelo fato de que:

9. Aparelho para codificação de vídeo para codificar imagens de vídeo como uma imagem de vídeo de múltiplos pontos de vista pelo uso de compensação paralaxe que realiza previsão pelo uso de paralaxe espacial entre as imagens de vídeo, o aparelho compreendendo:

um dispositivo de ajuste de paralaxe de referência (104) para ajustar paralaxe de referência para uma imagem-alvo a ser codificada, em que a paralaxe de referência é estimada usando imagens de referência sem o uso da imagem-alvo;

um dispositivo de ajuste de divisão de área (106) para ajustar divisão de área em uma estrutura de imagem;

um dispositivo de ajuste de deslocamento paralaxe (105) para ajustar deslocamento paralaxe para cada área dividida ajustada pelo dispositivo de ajuste de divisão de área, em que o deslocamento paralaxe é definido como a diferença entre a paralaxe de referência e a paralaxe real usada para a compensação paralaxe, e tem um valor comum dentro de cada área dividida;

um dispositivo de codificação de dados de divisão de área (107) para codificar dados de divisão de área para indicar a divisão de área que é ajustada pelo dispositivo de ajuste de divisão de área; e

Petição 870190039726, de 26/04/2019, pág. 26/33

5/7 um dispositivo de codificação de dados de deslocamento paralaxe (108) para codificar dados de deslocamento paralaxe para indicar o deslocamento paralaxe que é ajustado pelo dispositivo de ajuste de deslocamento paralaxe, o aparelho de codificação de vídeo caracterizado pelo fato de que:

o dispositivo de ajuste de paralaxe de referência ajusta a paralaxe de referência para cada pixel na imagem-alvo a ser codificada; e o aparelho de codificação de vídeo ainda compreende:

um dispositivo de geração de imagem prevista (109) para gerar a imagem prevista para a compensação de paralaxe, para cada pixel da imagem-alvo, pela utilização da paralaxe real que é obtida para cada pixel como uma unidade adicionando a paralaxe de ajuste de referência para o deslocamento de paralaxe que é ajustado para a área à qual o pixel pertence.

10. Aparelho de codificação de vídeo, de acordo com a reivindicação 9, caracterizado pelo fato de que:

o dispositivo de geração de imagem prevista gera a imagem prevista com base nos valores de pixel das imagens de referência.

11. Aparelho de codificação de vídeo de acordo com a reivindicação 10, caracterizado pelo fato de que:

o dispositivo de geração de imagem prevista gera a imagem prevista computando uma média entre os valores de pixel das imagens de referência.

12. Aparelho de decodificação de vídeo para decodificar imagens de vídeo como uma imagem de vídeo de múltiplos pontos de vista pelo uso de compensação paralaxe que realiza previsão pelo uso de paralaxe espacial entre as imagens de vídeo, o aparelho compre-

Petição 870190039726, de 26/04/2019, pág. 27/33

6/7 endendo:

um dispositivo de ajuste de paralaxe de referência (204) para ajustar paralaxe de referência para uma imagem-alvo a ser decodificada, em que a paralaxe de referência é estimada usando uma imagens de referência sem o uso da imagem-alvo;

um dispositivo de decodificação de dados de divisão de área (201) para decodificar dados de divisão de área para indicar a divisão de área, em que os dados de divisão de área estão incluídos nos dados codificados; e um dispositivo de decodificação de dados de deslocamento paralaxe (202) para decodificar dados de deslocamento paralaxe para cada área indicada pelos dados de divisão de área que são decodificados pelo dispositivo de decodificação de dados de divisão de área, em que os dados de deslocamento paralaxe estão incluídos nos dados codificados, e o deslocamento paralaxe é definido como a diferença entre a paralaxe de referência e a paralaxe real usada para gerar uma imagem prevista para a compensação paralaxe e tem um valor comum dentre de cada área indicada pelos dados de divisão de área, o aparelho de decodificação de vídeo caracterizado pelo fato de que:

um dispositivo de geração de imagem prevista (204) para gerar a imagem prevista para a compensação de paralaxe, para cada pixel da imagem-alvo, pela utilização da paralaxe real que é obtida para cada pixel como uma unidade adicionando a paralaxe de ajuste de referência para o deslocamento de paralaxe que é ajustado para a área à qual o pixel pertence.

Petição 870190039726, de 26/04/2019, pág. 28/33

7/7

13. Aparelho de decodificação de vídeo, de acordo com a reivindicação 12, caracterizado pelo fato de que:

14. Aparelho de decodificação de vídeo de acordo com a reivindicação 13, caracterizado pelo fato de que: