BRPI1008500B1

BRPI1008500B1 - Método de codificação de imagem de multivisão, método de decodificação de imagem de multivisão, dispositivo de codificação de imagem de multivisão e dispositivo de decodificação de imagem de multivisão

Info

Publication number: BRPI1008500B1
Application number: BRPI1008500-9A
Authority: BR
Inventors: Shinya Shimizu; Hideaki Kimata; Masayuki Tanimoto
Original assignee: Nippon Telegraph And Telephone Corporation; National University Corporation Nagoya University
Priority date: 2009-02-23
Filing date: 2010-02-23
Publication date: 2021-08-24
Also published as: ES2524973T3; RU2498522C2; TWI433544B; EP2400759A4; US8548228B2; TW201424406A; JP5521202B2; CA2752567C; TW201103339A; JPWO2010095471A1; CA2752567A1; WO2010095471A1; TWI517674B; RU2011133831A; EP2400759A1; CN102326391A; CN102326391B; KR20110119709A; EP2400759B1; KR101344425B1

Abstract

método de codificação de imagem de multivisão, método de decodificação de imagem de multivisão, dispositivo de codificação de imagem de multivisão, dispositivo de decodificação de imagem de multivisão, programa de codificação de imagem de multivisão, e programa de decodificação de imagem de multivisão. a presente invenção refere-se a um dispositivo de codificação/decodificação de imagem de multivisão descrito primeiramente obtém informação de profundidade para um objeto fotografado em uma área sujeita a processamento. em seguida, um grupo de pixels em uma área já codificada (decodificada) que é adjacente à área sejeita a processamento e na qual o mesmo objeto que área sujeita a processamento foi fotografado é determinada usando a informação de profundidade e ajustada como uma amostra de grupo de pixel. então, a imagem de síntese de visão é gerada para os pixels incluídos na amostra de grupo de pixel e na área sujeita a processamento. em seguida, os parâmetros de correção para corrigir discrepâncias de iluminação e cor na amostra de grupo de pixel são estimados a partir de imagem de síntese de visão e da imagem decodificada. uma imagem previsível é então gerada ao corrigir a imagem de síntese de visão relativa à área sujeita a processamento usando os parâmteros de correção estimados.

Description

Campo Técnico

[001] A presente invenção refere-se a um método de codificaçãode imagem de multivisão e dispositivo para codificar imagens fotografadas por uma pluralidade de câmeras que estão fotografando um objeto particular, e também a um método de decodificação de imagem de multivisão e dispositivo para decodificar dados codificados que foram codificados usando o referido método de codificação de imagem de multivisão, e também a um programa de codificação de imagem de multivisão que é usado para implementar o referido método de codificação de imagem de multivisão, e a um programa de decodificação de imagem de multivisão que é usado para implementar o referido método de decodificação de imagem de multivisão.

[002] É reivindicada prioridade no pedido de patente Japonesa N°2009-38786, depositado em 23 de Fevereiro de 2009, o conteúdo do qual se encontra aqui incorporado por referência.

Antecedentes

[003] O termo "imagens de multivisão" refere-se a uma pluralidade de imagens obtidas ao fotografar o mesmo objeto e fundo usando uma pluralidade de câmeras, enquanto o termo imagens móveis de multivisão (isto é, "vídeo de multivisão")" refere-se a imagens móveis obtidas deste modo.

[004] Previsão compensada de movimento e previsão compensada de disparidade têm sido propostos como tecnologias para uso em codificação de imagem móvel geral e codificação de imagem móvel de multivisão.

[005] Previsão compensada de movimento é um método que étambém empregado em Padrões Internacionais para formatos de codificação de imagem móvel de anos recentes tipificados por H.264. No referido método, o movimento de um objeto é compensado entre um quadro direcionado para codificação e um quadro de referência que já foi codificado de modo a obter uma diferença interquadro para o sinal de imagem, e apenas o referido sinal de diferença é codificado (vide Documento não patente 1).

[006] De modo diferente, na previsão compensada de disparidade,ao se compensar disparidades em um objeto ao usar um quadro fotografado por uma câmera diferente como o quadro de referência, a codificação pode ser realizada como a diferença interquadros entre sinais de imagem que estão sendo obtidas (vide Documento não patente 2).

[007] O termo "disparidade" que é usado aqui refere-se a diferenças em posições nos planos de imagem de câmeras dispostas em diferentes posições onde a mesma posição em um objeto é projetada. Na previsão compensada de disparidade, isto é representado por vetores bidimensionais e então codificado. Como é mostrado na figura 9, pelo fato de que as disparidades são informação cuja criação é dependente da posição da câmera e na distância a partir da câmera (isto é, a profundidade), um método conhecido como previsão de síntese de visão (previsão de interpolação de visão) que utiliza as referidas saídas de princípio.

[008] Na previsão de síntese de visão (previsão de interpolaçãode visão), um método existe no qual a profundidade de um objeto é estimada usando a informação da posição da câmera e teoria de triangulação para vídeo de multivisão obtido no lado de codificação ou o lado de decodificação, e quadros direcionados para codificar são sinte-tizados (isto é, interpolados) usando a referida informação de profundidade estimada de modo a criar uma imagem de previsão (vide Do- cumento de patente 1 e Documento não patente 3). Observar que se a profundidade é estimada no lado de codificação, é necessário se codificar a profundidade que é usada.

[009] Em previsão que usa imagens fotografadas usando as referidas câmeras separadas, se diferenças individuais existem entre as respostas de elementos de imagem da câmera, ou se controle de ganho ou correção gama são realizados em cada câmera, ou se os ajustes para a profundidade de campo ou abertura ou semelhante são diferentes em cada câmera, ou se há um efeito de iluminação dependente de direção na cena, ou semelhante, então a eficiência da codificação se deteriora. A razão para isto é que a previsão é realizada assumindo que a iluminação e a cor do objeto são as mesmas em não só no quadro direcionado para codificação, mas também no quadro de referência.

[0010] Métodos tais como compensação de iluminação e correçãode cor estão sendo investigados como modos de lidar com mudanças na iluminação e na cor de um objeto. Nos referidos métodos, ao se usar um quadro de referência cuja iluminação e cor foram corrigidas como o quadro que é usado para fazer a previsão, é possível se limitar a quantidade de previsão residual que é codificada a um mínimo.

[0011] Em H.264, a previsão pesada na qual uma função linear éusada como o modelo de correção é adotada (vide Documento não patente 1), enquanto no Documento não patente 3, um método é proposto no qual correções são feitas usando uma tabela de cores.

Documentos da técnica anterior

[0012] Documento de patente 1 Pedido de patente Japonesa aberta à inspeção pública (JP-A) N° 2007-036800 "Video coding method, video decoding method, video coding program, video decoding program, and computer readable recording medium on which these programs are recorded"

Documento não patente 1

[0013] ITU-T Rec. H.264/ISO/IEC 11496-10, "Advanced video coding for generic audiovisual services", Final Committee Draft, Documento JVT-E022d7, Setembro 2002.(pp.10-13, pp.62-73) Documento não patente 2

[0014] Hideaki Kimata e Masaki Kitahara, "Preliminary results onmutiple view video codification (3DAV)", documento M10976 MPEG Redmond Meeting, Julho, 2004.

Documento não patente 3

[0015] K.Yamamoto, M.Kitahara, H.Kimata, T.Yendo, T.Fujii,M.Tanimoto, S.Shimizu, K.Kamikura, e Y.Yashima, "Multiview Video Coding Using View Interpolation e Color Correction," IEEE Transactions on Circuits e System for Video Technology, Vol.17, N°11,pp.1436-1449, Novembro, 2007.

Descrição da InvençãoProblema a ser Solucionado pela presente invenção

[0016] Os dois problemas a seguir existem quando a codificação érealizada usando a compensação de iluminação e a correção de cor acima mencionados.

[0017] O primeiro problema é o aumento na quantidade de códigoque resulta a partir da adição de parâmetros para compensação de iluminação e correção de cor e semelhante. Em previsão normal compensada de disparidade e previsão de síntese de visão (interpolação), pelo fato de que se torna necessário se codificar parâmetros para compensação de iluminação e correção de cor e semelhante que não necessitavam de codificação anteriormente, há uma deterioração na eficiência da codificação.

[0018] O segundo problema é a precisão da correção. No caso dedesbotamento e flash em codificação de imagem móvel normal, porque toda a tela muda do mesmo modo, é possível se realizar compen- sação de iluminação e correção de cor satisfatórios e semelhante usando um único parâmetro de correção. Entretanto, disparidades (isto é, discrepâncias na iluminação e na cor) que são causadas pelo objeto não sendo um completo refletor difuso, ou pela profundidade de campo e foco não completamente correspondendo em cada câmera não são dependentes da cena, mas do objeto. Como uma consequência, na correção que é baseada em um único parâmetro de correção, há casos quando, dependendo do objeto, discrepância é aumentada.

[0019] Para contornar o referido problema, um método no qualuma pluralidade de parâmetros de correção é usada de modo a lidar com a discrepância em cada objeto individual pode ser considerado. Entretanto, se o referido método for usado, então além da quantidade de código necessária para codificar uma pluralidade de parâmetros de correção, é também necessário se codificar informação mostrando qual parâmetro de correção deve ser usado em cada área de imagem. Como um resultado, a quantidade de código aumenta ainda mais, e não é possível se solucionar o primeiro problema.

[0020] A presente invenção foi concebida em vista das circunstâncias acima descritas, e é um objetivo da mesma proporcionar uma nova tecnologia de codificação e decodificação de imagem de multivisão que alcança codificação altamente eficiente mesmo em imagens de multivisão (isto é, imagens estáveis de multivisão e imagens móveis) na qual a discrepância de iluminação e cor localizada é gerada entre câmeras, e que também alcança uma redução na quantidade de código necessária cada vez que a referida nova codificação é empregada.

Meios para Solucionar o Problema1. ideia tecnológica básica por trás da presente invenção

[0021] De modo a solucionar os problemas acima descritos, napresente invenção, os meios a seguir foram planejados para casos nos quais um quadro direcionado para codificar/decodificar é primeiro divi- dido dentro de áreas, e então a codificação e a decodificação de imagem de multivisão é realizada em cada área.

[0022] Primeiramente, informação de profundidade para um objetosendo fotografadas em uma área direcionada para processamento é determinada. Em seguida, em uma área adjacente à área direcionada para processamento onde a codificação (decodificação) já foi completada, um grupo de pixel no qual o mesmo objeto que na área direcionada para processamento foi fotografado é determinado a partir da informação de profundidade e é ajustado como uma amostra de grupo de pixel. Em seguida, uma imagem de síntese de visão é criada para os pixels contidos na referida amostra de grupo de pixel, e a imagem de síntese de visão é também criada para os pixels contidos na área direcionada para processamento. Em seguida, parâmetros de correção para corrigir a discrepância em iluminação e cor são estimados a partir da imagem de síntese de visão e da imagem decodificada na amostra de grupo de pixel. Em seguida, ao corrigir a imagem de síntese de visão criada para a área direcionada para processamento usando os parâmetros de correção estimados, uma imagem de previsão a ser usada para codificar (decodificar) sinais de imagem na área direcionada para processamento é criada.

[0023] No caso do método convencional no qual parâmetros decorreção são calculados ao comparar o quadro direcionado para codificação com um quadro de referência, pelo fato de que o quadro direcionado para codificação não pode ser adquirido pelo lado de decodifi- cação, é necessário se codificar os parâmetros de correção.

[0024] De modo diferente, na presente invenção, os parâmetrosde correção são calculados ao comparar sinais de imagem de áreas já codificadas/decodificadas de um quadro direcionado para codifi- car/decodificar com a informação da imagem de síntese de visão criada usando um quadro de referência. Pelo fato de que os referidos podem ser adquiridos pelo lado de decodificação, não é necessário se codificar os parâmetros de correção. Ou seja, é possível, por meio da presente invenção, se solucionar o problema de um aumento na quantidade de código.

[0025] Adicionalmente, pelo fato de que a codificação é um processo no qual sinais de entrada são convertidos o mais corretamente possível, pode ser considerado que os sinais de imagem que já foram codificados/decodificados são substancialmente os mesmos sinais de imagem direcionada para codificação. Ou seja, os parâmetros de correção calculados por meio da presente invenção podem trazer a imagem sintetizada extremamente próxima da imagem direcionada para codificar, e a previsão residual que deve ser codificada pode ser signi- ficantemente reduzida.

[0026] Adicionalmente, na presente invenção, parâmetros de correção são estimados usando informação de áreas adjacentes onde o mesmo objeto como o objeto fotografado na área direcionada para processamento foi fotografado. Ao assim proceder, é possível se corrigir a iluminação e a cor que é dependente do objeto. Observar que pelo fato de que a informação de profundidade que é necessária quando a imagem de síntese de visão está sendo criada é usada na referida determinação do objeto, não há necessidade de codificar e transmitir informação adicional.

[0027] Na codificação/decodificação de multivisão acima descrita,ao comparar a variação de informação de profundidade em uma área direcionada para processamento com um valor limiar predefinido, é possível se determinar se uma pluralidade de objetos foi fotografada ou não dentro de uma área direcionada para processamento. Se uma pluralidade de objetos foi fotografada, então a informação de profundidade e a amostra de grupo de pixels são determinadas para cada objeto, e os parâmetros de correção são estimados. Observar que ao se processar objetos que têm menos do que um número fixo de pixels em uma área direcionada para processamento com outros objetos, é possível se evitar qualquer aumento em uma quantidade de cálculo.

[0028] Adicionalmente, na codificação/decodificação de imagemde multivisão acima descrita, modelos de correção dos quais uma pluralidade existe (isto é, o número de parâmetros de correção) são alterados baseado no número de pixels na amostra de grupo de pixel.2.

Estrutura da presente invenção

[0029] Em seguida, a estrutura do dispositivo de codificação deimagem de multivisão e do dispositivo de decodificação de imagem de multivisão da presente invenção serão descritos.2-1 Estrutura do dispositivo de codificação de imagem de multivisão da presente invenção

[0030] O dispositivo de codificação de imagem de multivisão dapresente invenção é um dispositivo que codifica imagens de multivi- são (isto é, imagens estáticas e imagens móveis fotografadas a partir de múltiplos pontos de vista) ao dividir uma imagem de entrada de um objeto que é fotografado por uma primeira câmera em uma pluralidade de áreas alvo de codificação e, usar a imagem de síntese de visão que é sintetizada a partir de informação de profundidade para a imagem de entrada e a partir de uma imagem já codificada do mesmo objeto fotografado por uma segunda câmera que é localizada em uma posição diferente a partir da primeira câmera, ao realizar codificação previsível para cada uma das áreas alvo de codificação, e que inclui: (1) uma unidade de ajuste de profundidade representativa que ajusta a informação de profundidade representativa para um objeto fotografado na área alvo de codificação; (2) uma unidade de ajuste de amostra de grupo de pixel a qual, baseada em informação de profundidade para uma área já codificada que é adjacente à área alvo de codificação e na informação de profundidade representativa, determi- na um grupo de pixels onde o mesmo objeto que na área alvo de codificação foi fotografado e ajusta o grupo de pixels como uma amostra de grupo de pixel; (3) uma unidade de estimativa de parâmetro de correção a qual, baseada na imagem de síntese de visão para a amostra de grupo de pixel e na imagem decodificada que foi decodificada para a amostra de grupo de pixel, estima os parâmetros de correção para corrigir discrepâncias de iluminação e cor; (4) uma unidade de correção de imagem de síntese de visão a qual, usando os parâmetros de correção, corrige a imagem de síntese de visão para a área alvo de codificação de modo a criar uma imagem de síntese de visão corrigida; (5) uma unidade de codificação de imagem a qual, usando a imagem de síntese de visão corrigida, codifica um sinal de imagem da imagem alvo de decodificação que é codificado de modo a criar dados codificados; e (6) uma unidade de decodificação de imagem que decodifica os dados codificados de modo a criar a imagem decodificada para a área alvo de codificação.

[0031] É também possível para o dispositivo de codificação deimagem de multivisão de acordo com uma modalidade da presente invenção ser adicionalmente proporcionado com (7) uma unidade de determinação de objeto que divide pixels na área alvo de codificação em um ou diversos grupos usando informação de profundidade para os pixels relevantes como uma referência neste caso, é também possível para a unidade de ajuste de profundidade representativa ajustar a informação de profundidade representativa para cada grupo determinado pela unidade de determinação de objeto, para a unidade de ajuste de amostra de grupo de pixel para ajustar uma amostra de grupo de pixel para cada grupo determinado pela unidade de determinação de objeto, para a unidade de estimativa de parâmetro de correção para estimar os parâmetros de correção para cada grupo determinado pela unidade de determinação de objeto, e para a unidade de correção de imagem de síntese de visão para corrigir a imagem de síntese de visão para cada grupo determinado pela unidade de determinação de objeto.

[0032] Adicionalmente, é também possível para o dispositivo decodificação de imagem de multivisão de acordo com uma modalidade da presente invenção ser adicionalmente proporcionado com (8) uma unidade de seleção de modelo de correção que seleciona um modelo de correção para corrigir a imagem de síntese de visão para a área alvo de codificação de acordo com o número de pixels na amostra de grupo de pixel. Neste caso, é também possível para a unidade de estimativa de parâmetro de correção para estimar os parâmetros de correção para o modelo de correção selecionado pela unidade de seleção de modelo de correção, e para a unidade de correção de imagem de síntese de visão para corrigir a imagem de síntese de visão usando o modelo de correção selecionado pela unidade de seleção de modelo de correção.

[0033] O método de codificação de imagem de multivisão da presente invenção que é implementado como um resultado de cada um dos dispositivos de processamento acima descritos realizando as suas respectivas operações pode também ser alcançado por meio de um programa de computador. O referido programa de computador é for-necido ao ser registrado em um meio de registro adequado capaz de ser lido por computador, ou é fornecido via uma rede. Quando a presente invenção tiver que ser aplicada, o programa de computador é instalado em um computador e a presente invenção é alcançada quando o programa de computador é operado em uma unidade de controle tal como uma CPU.2-2 Estrutura do dispositivo de decodificação de imagem de multivisão da presente invenção

[0034] O dispositivo de decodificação de imagem de multivisão da presente invenção é um dispositivo que decodifica dados codificados para imagens de multivisão (isto é, imagens estáticas e imagens móveis fotografadas a partir de múltiplos pontos de vista) ao dividir uma imagem alvo de decodificação de um objeto que é fotografado por uma primeira câmera em uma pluralidade de áreas alvo de decodificação e, usando a imagem de síntese de visão que é sintetizada a partir de informação de profundidade para a imagem alvo de decodificação e a partir de uma imagem já decodificada do mesmo objeto fotografado por uma segunda câmera que é localizada em uma posição diferente a partir da primeira câmera, ao realizar decodificação previsível para cada uma das áreas alvo de decodificação, e que inclui: (1) uma unidade de ajuste de profundidade representativa que ajusta informação de profundidade representativa para um objeto fotografado na área alvo de decodificação; (2) uma unidade de ajuste de amostra de grupo de pixel a qual, baseada em informação de profundidade para uma área já decodificada que é adjacente à área alvo de decodificação e na informação de profundidade representativa, determina um grupo de pixels onde o mesmo objeto que na área alvo de decodificação foi fotografado e ajusta o grupo de pixels como uma amostra de grupo de pixel; (3) uma unidade de estimativa de parâmetro de correção a qual, baseada na imagem de síntese de visão para a amostra de grupo de pixel e na imagem decodificada que foi decodificada para a amostra de grupo de pixel, estima os parâmetros de correção para corrigir discrepâncias de iluminação e cor; (4) uma unidade de correção de imagem de síntese de visão a qual, usando os parâmetros de correção, corrige a imagem de síntese de visão para a área alvo de decodificação de modo a criar uma imagem de síntese de visão corrigida; e (5) uma unidade de decodificação de imagem a qual, usando a imagem de síntese de visão corrigida, decodifica um sinal de imagem da imagem alvo de decodificação.

[0035] É também possível para o dispositivo de decodificação deimagem de multivisão de acordo com uma modalidade da presente invenção ser adicionalmente proporcionado com (6) uma unidade de determinação de objeto que divide pixels na área alvo de decodificação em um ou diversos grupos usando informação de profundidade para os pixels relevantes como uma referência neste caso, é também possível para a unidade de ajuste de profundidade representativa ajustar a informação de profundidade representativa para cada grupo determinado pela unidade de determinação de objeto, para a unidade de ajuste de amostra de grupo de pixel para ajustar uma amostra de grupo de pixel para cada grupo determinado pela unidade de determinação de objeto, para a unidade de estimativa de parâmetro de correção para estimar os parâmetros de correção para cada grupo determinado pela unidade de determinação de objeto, e para a unidade de correção de imagem de síntese de visão para corrigir a imagem de síntese de visão para cada grupo determinado pela unidade de determinação de objeto.

[0036] É também possível para o dispositivo de decodificação deimagem de multivisão de acordo com uma modalidade da presente invenção ser adicionalmente proporcionado com (7) uma unidade de seleção de modelo de correção que seleciona um modelo de correção para corrigir a imagem de síntese de visão para a área alvo de decodi- ficação de acordo com o número de pixels na amostra de grupo de pixel. Neste caso, a unidade de estimativa de parâmetro de correção estima os parâmetros de correção para o modelo de correção selecionado pela unidade de seleção de modelo de correção, e a unidade de correção de imagem de síntese de visão corrige a imagem de síntese de visão usando o modelo de correção selecionado pela unidade de seleção de modelo de correção.

[0037] O método de decodificação de imagem de multivisão dapresente invenção que é implementado como um resultado de cada um dos dispositivos de processamento acima descritos realizando as suas respectivas operações pode também ser alcançado por meio de um programa de computador. O referido programa de computador é fornecido ao ser registrado em um meio de registro adequado capaz de ser lido por computador, ou é fornecido via uma rede. Quando a presente invenção tiver que ser aplicada, o programa de computador é instalado em um computador e a presente invenção é alcançada quando o programa de computador é operado em uma unidade de controle tal como a CPU.

Efeito da Invenção

[0038] De acordo com a presente invenção, mesmo em casos nosquais discrepâncias de iluminação e cor entre câmeras ocorrem localmente, é possível se reduzir a previsão residual pelo fato de que parâmetros de correção são determinados para cada objeto separadamente e localmente. Deste modo, é possível se alcançar uma codificação altamente eficiente e decodificação de imagens de multivisão e imagens móveis de multivisão.

[0039] Adicionalmente, de acordo com a presente invenção, pelofato de que os parâmetros de correção são determinados em um modo que não requer codificação/decodificação adicional, é possível se reduzir consideravelmente a quantidade de código necessária quando a referida codificação e decodificação de imagens de multivisão e ima-gens móveis de multivisão são realizadas.

Breve Descrição dos Desenhos

[0040] A figura 1 é um diagrama de bloco mostrando um dispositivo de codificação de vídeo de multivisão de acordo com uma primeira modalidade da presente invenção.

[0041] A figura 2 é um gráfico de fluxo mostrando o processamento executado pelo dispositivo de codificação de vídeo de multivisão de acordo com a primeira modalidade da presente invenção.

[0042] A figura 3 é um gráfico de fluxo mostrando detalhes do processamento executado pelo dispositivo de codificação de vídeo de multi- visão de acordo com a primeira modalidade da presente invenção.

[0043] A figura 4 é a fluxograma mostrando o processamento executado pelo dispositivo de codificação de vídeo de multivisão de acordo com a primeira modalidade da presente invenção.

[0044] A figura 5 é um diagrama de bloco mostrando um dispositivo de decodificação de vídeo de multivisão de acordo com uma segunda modalidade da presente invenção.

[0045] A figura 6 é um gráfico de fluxo mostrando processamentoexecutado pelo dispositivo de decodificação de vídeo de multivisão de acordo com a segunda modalidade da presente invenção.

[0046] A figura 7 é um gráfico de fluxo mostrando detalhes do processamento executado pelo dispositivo de decodificação de vídeo de multivisão de acordo com a segunda modalidade da presente invenção.

[0047] A figura 8 é um diagrama de bloco mostrando uma unidadede criação de parâmetro de correção nas primeira e segunda modalidades da presente invenção.

[0048] A figura 9 é uma vista mostrando a modo de previsão dedisparidade compensada.

Modalidades para Realizar a Invenção

[0049] A presente invenção será agora descrita em detalhes comreferência feita aos desenhos que ilustram as modalidades da presente invenção.

[0050] Observar que na descrição a seguir, ao se atribuir informação de posição (ou seja, valores coordenados ou índices que podem ser associados com os valores coordenados) englobam o símbolo [] ao vídeo (isto é, quadros) e para informação profunda, sinais de imagem e a informação de profundidade (definida para cada pixel) de objetos fotografados em pixels naquela posição são mostradas. 1. Dispositivo de codificação de vídeo de multivisão de acordo com uma primeira modalidade da presente invenção

[0051] A estrutura de um dispositivo de codificação de vídeo demultivisão 100 de acordo com a primeira modalidade da presente invenção é mostrada na figura 1.

[0052] Como é mostrado na figura 1, no dispositivo de codificaçãode vídeo de multivisão 100 da presente modalidade, a unidade de entrada de imagem alvo de codificação 101 recebe informações de imagens (isto é, quadros) de um objeto ou cena fotografada por uma primeira câmera como uma codificação alvo. Memória de imagem alvo de codificação 102 armazena quadros alvos de codificação informados a partir da unidade de entrada de imagem alvo de decodificação 101. Os quadros alvos de codificação armazenados são fornecidos a uma unidade de codificação de imagem 109.

[0053] A unidade de informação de imagem de síntese de visão103 recebe informações de imagens de síntese de visão para codificar imagens alvo. Imagens de síntese de visão foram geradas usando as imagens já codificadas nas quais o mesmo objeto ou cena foi fotografada pelas segundas câmeras dispostas em diferentes posições a partir da primeira câmera. Memória de imagem de síntese de visão 104 armazena as imagens de síntese de visão informadas a partir da unidade de informação de imagem de síntese de visão 103. Imagens de síntese de visão armazenadas são fornecidas a uma unidade de criação de parâmetro de correção 107 e a unidade de reção de imagem de síntese de visão 108.

[0054] A unidade de entrada de informação de profundidade 105recebe entradas de informação de profundidade para quadros direcionados para codificação. A memória de informação de profundidade 106 armazena a informação de profundidade informada a partir da unidade de entrada de informação de profundidade 105. A informação de profundidade armazenada é fornecida à unidade de criação de parâmetro de correção 107.

[0055] A unidade de criação de parâmetro de correção 107 estimaos parâmetros de correção usando imagens de síntese de visão, informação de profundidade, e imagens decodificadas usadas em áreas periféricas da área alvo de codificação, e usando informação de profundidade usada na área alvo de codificação. A unidade de correção de imagem de síntese de visão 108 corrige as imagens de síntese de visão da área direcionada para codificação usando os parâmetros de correção estimados.

[0056] A unidade de codificação de imagem 109 codifica os sinaisde imagem da área alvo de codificação usando as imagens de síntese de visão corrigidas como sinais de previsão. A unidade de decodifica- ção de imagem 110 decodifica sinais de imagem codificados. A memória de imagem decodificada 111 armazena imagens decodificadas pela unidade de codificação de imagem 109. As imagens decodificadas armazenadas na memória de imagem decodificada 111 são fornecidas à unidade de criação de parâmetro de correção 107.

[0057] Como é mostrado na figura 8, a unidade de criação de parâmetro de correção 107 tem uma unidade de determinação de objeto 107a à qual a informação de profundidade é fornecida a partir da memória de informação de profundidade 106, e uma unidade de ajuste de profundidade representativa 107b e uma unidade de ajuste de amostra de grupo de pixel 107c que são conectadas na referida sequência ao lado à jusante da unidade de determinação de objeto 107a. Uma unidade de seleção de modelo de correção 107d e uma unidade de estimativa de parâmetro de correção 107e são conectadas na referida sequência ao lado à jusante da unidade de ajuste de amostra de grupo de pixel 107c. Imagens decodificadas a partir da memória de imagem decodificada 111 e imagens de síntese de visão a partir da memória de imagem de síntese de visão 104 são fornecidas à unidade de estimativa de parâmetro de correção 107e, e os parâmetros de correção estimados usando as imagens decodificadas fornecidas e as imagens de síntese de visão são fornecidas à unidade de correção de imagem de síntese de visão 108.

[0058] A figura 2 mostra o fluxo de processamento executado pelodispositivo de codificação de vídeo de multivisão 100 da presente modalidade que é construído do modo acima descrito.

[0059] O processamento executado pelo dispositivo de codificaçãode vídeo de multivisão 100 da presente modalidade será agora descrito em detalhes de acordo com o referido fluxo de processamento.

[0060] Primeiramente, um quadro Org que é direcionado para codificação é informado pela unidade de entrada de imagem alvo de codificação 101, e é armazenado na memória de imagem alvo de codificação 102. A imagem de síntese de visão Synth para o quadro alvo de codificação Org é informada pela unidade de informação de imagem de síntese de visão 103, e é armazenada na memória de imagem de síntese de visão 104. Informação de profundidade Depth para o quadro alvo de codificação Org é informada pela unidade de entrada de informação de profundidade 105, e é armazenada na memória de informação de profundidade 106 [A1].

[0061] A imagem de síntese de visão e a informação de profundidade que são informadas aqui são as mesmas que as obtidas no dispositivo de decodificação. A razão para isto é que, ao se usar as mesmas informações que as informações obtidas no dispositivo de decodificação, a geração de ruídos de codificação tais como derivação pode ser suprimida. Entretanto, se a geração do referido ruído de codificação é permissível, então é também possível para a informação de pré-codificação original ser informada.

[0062] Observa-se que a informação de profundidade é proporcio- nada a partir de fora do dispositivo de codificação de vídeo de multivi- são 100, entretanto, como é descrito no Documento não patente 3, é também possível se obter a informação de profundidade ao se estimar a mesma a partir de quadros já codificados em outras câmeras. Deste modo, não é essencial para a informação de profundidade ser transmitida a partir do lado de transmissão para o lado de recepção. A imagem de síntese de visão é gerada usando quadros já codificados em câmeras diferentes da primeira câmera e informação de profundidade.

[0063] Em seguida, o quadro alvo de codificação é dividido emuma pluralidade de áreas alvo de codificação, e o sinal de imagem do quadro alvo de codificação é codificado pela unidade de codificação de imagem 109 com correção da imagem de síntese de visão para cada uma das referidas áreas [A2-A15].

[0064] Ou seja, se um índice do bloco de processamento de codificação é expresso como blk, e se o número total de todos os blocos de processamento de codificação é expresso como numBlks, então após blk ser inicializado a 0 [A2] as etapas a seguir [A3-A13] são repetidas com 1 sendo adicionado a blk [A14] até que blk alcance numBlks [A15].

[0065] No processamento que é repetido para cada bloco de processamento de codificação, o dispositivo de codificação 100 primeiro determina um grupo de pixels Nblk de áreas já codificadas periféricas ao bloco blk (isto é, a área alvo de codificação) [A3].

[0066] Diversos tipos de unidades podem ser usados para as referidas áreas periféricas tais como blocos de processamento de codificação que são adjacentes ao bloco blk, ou pixels adjacentes ou semelhante. Embora uma variedade de definições possa ser usada para as áreas periféricas, é necessário que as mesmas definições que usadas no lado de decodificação sejam usadas.

[0067] Em seguida, a unidade de determinação de objeto 107a da unidade de criação de parâmetro de correção 107 agrupa os pixels dentro do bloco blk usando a informação de profundidade proporcionada para cada pixel como uma referência [etapa de determinação de objeto A4].

[0068] O índice de cada grupo resultando a partir disto é expressopor obj, o número de grupos é expresso por numObjs, e os pixels pertencendo ao grupo obj são expressos como Cobj.

[0069] Qualquer método pode ser usado para a referida operaçãode agrupamento, entretanto, é necessário que os mesmos métodos que os usados no lado de decodificação sejam usados. O método de agrupamento mais simples é um no qual a variação de informação de profundidade para os pixels dentro do bloco blk é calculada, e se o valor da mesma for igual a ou menor do que um valor limiar, então todos os pixels são ajustados como um grupo, enquanto se o valor for maior do que o valor limiar, então a média de valores de profundidade é ajustada como um limite e os pixels são divididos em dois grupos. Neste caso, uma vez que as variações da informação de profundidade dos pixels em cada grupo se tornem iguais a ou menores do que um valor limiar particular, o agrupamento é terminado.

[0070] Um método de agrupamento mais complexo é um no qual,no início, cada pixel é considerado estar formando um grupo. Então, quando quaisquer dois grupos são fundidos juntos, a fusão é realizada em sequência a partir dos grupos tendo o menor aumento na variação da informação de profundidade dos pixels dentro do grupo. Neste caso, se um grupo tendo uma variação que excede um valor limiar particular termina sendo criado independente de quais dois grupos particulares são fundidos juntos, então o agrupamento é terminado.

[0071] Observa-se que pelo fato de que a quantidade de cálculoaumenta na medida em que o número de grupos aumenta, é também possível para um número máximo de grupos ser definido com antece- dência. Ao terminar a operação de agrupamento uma vez que o número de grupos alcance o referido valor máximo, ou ao definir com antecedência um número mínimo de pixels a ser contido dentro de um único grupo de modo que pequenos grupos não são criados, é possível se evitar que o número de grupos aumente. Se o tamanho do bloco for 16 x 16 pixels, que é um típico tamanho de bloco de uma unidade para codificação de imagem, então em geral, é raro para um grande número de objetos ser fotografado em um mesmo bloco. Deste modo, um agrupamento altamente preciso pode ser alcançado mesmo se o número máximo de grupos for dois.

[0072] Uma vez que a operação de agrupamento tenha terminado,uma imagem de previsão Pred é criada ao corrigir a imagem de síntese de visão para cada pixel de cada grupo [A5 - A11].

[0073] Ou seja, após o índice de grupo obj ser inicializado a 0 [A5],as etapas [A6 - A8] são realizadas nas quais, com incremento obj por 1 [A10], os parâmetros de correção são estimados de modo a corrigir a imagem de síntese de visão na unidade de criação de parâmetro de correção 107 até que obj alcance numObjs [A11]. Juntos com as etapas, na unidade de correção de imagem de síntese de visão 108, uma etapa [A9] para criar a imagem de previsão ao corrigir a imagens de síntese de visão para pixels contidos no grupo obj usando os parâmetros de previsão estimados é realizada.

[0074] No processamento de estimativa de parâmetro de correção,primeiramente, baseada em uma informação de profundidade, um grupo de pixels Nblk,obj (isto é, uma amostra de grupo de pixel) no qual o mesmo objeto que no grupo obj é fotografado e que é incluído no grupo de pixels Nblk nas áreas já codificadas periféricas ao bloco blk (isto é, a área alvo de codificação) é determinado [etapa de ajuste de profundidade representativa e etapa de ajuste de amostra de grupo de pixel A6].

[0075] Especificamente, no referido processamento, primeiramente, na unidade de ajuste de profundidade representativa 107b, um valor de profundidade representativo Dobj para o grupo obj é determinado (etapa de ajuste de profundidade representativa). Qualquer método pode ser usado para determinar o valor de profundidade representativo Dobj desde que seja possível se determinar um único valor de profundidade a partir da informação de profundidade nos pixels Cobj dentro do grupo obj. Entretanto, é necessário se usar os mesmos processamentos que os usados no lado do decodificador. Por exemplo, um va-lor médio ou um valor mediano ou semelhante pode ser usado. No caso de valores médios serem usados, o valor de profundidade representativo Dobj pode ser expresso pela fórmula a seguir (1). Observar que || || mostra o número de pixels no conjunto.

[0076] Observar que alguns métodos de agrupamento, os quaisdividem pixels em diversos grupos usando a informação de profundidade como uma referência na etapa de determinação de objeto A4, determina os pixels e/ou informação de profundidade que representa cada grupo como uma parte de seu processo. Se este tipo de método é usado, a informação de profundidade para o pixel usado como representativo do grupo naquele momento e também a informação de profundidade mostrando que o grupo pode ser usado como o valor de profundidade representativo. Neste caso, o processamento da etapa de ajuste de profundidade representativa é realizado ao mesmo tempo na etapa de determinação de objeto A4. A propagação de afinidade é um dos métodos mais famosos no qual a decisão do representativo do grupo e o processamento de agrupamento são realizados simultaneamente. Os detalhes do referido método são descritos em "Clustering by Passing Messages Between Data Points", B. J. Frey e D. Dueck, Science 2007, Vol. 315(5814): pp. 972 - 976.

[0077] Quando o valor de profundidade representativo Dobj foi determinado deste modo, em seguida, na unidade de ajuste de amostra de grupo de pixel 107c, um grupo de pixels Nblk,obj (isto é, uma amostra de grupo de pixel) no qual o mesmo objeto que no grupo obj é fotografado e que é um subconjunto do grupo Nblk é determinado (etapa de ajuste de amostra de grupo de pixel). Como é mostrado pela fórmula a seguir (2), o grupo Nblk,obj pode ser definido ao se selecionar os pixels onde a diferença absoluta entre seu valor de profundidade e o valor de profundidade representativo é menor do que o limiar predefinido thSameObj.

[0078] Após o grupo Nblk,obj ser determinado, um modelo de correçãoé selecionado pela unidade de seleção de modelo de correção 107d a partir do modelo de correções predefinido baseado no número de pixels no referido grupo [etapa de seleção de modelo de correção A7].

[0079] É possível que diversos modelos de correções sejam preparados, entretanto, é necessário que os mesmos modelos de correção sejam preparados no lado de decodificação também, e é também necessário se usar os mesmos critérios para decidir um modo de correção a ser usado. Adicionalmente, se apenas um modelo de correção foi preparado, então a referida etapa pode ser omitida.

[0080] O processamento para criar a imagem de previsão ao corrigir a imagem de síntese de visão que é realizada na etapa 9A (descrita abaixo) pode ser expresso como uma função que tem a imagem de síntese de visão como uma entrada e emite a imagem de previsão. O termo modelo de correção refere-se a um modelo da função usada neste momento. Isto pode ser, por exemplo, a correção baseada em offset, correção que emprega a função linear, ou processamento de filtro linear bidimensional tendo um comprimento k. Quando o pixel a ser corrigido é denotado como p, o referido pode ser expresso pela fórmula a seguir (3) a fórmula (5), respectivamente.

[0081] A correção baseada em offset e a correção que emprega afunção linear são exemplos típicos de correção que é baseada em processamento de filtro linear. Observa-se que não é necessário para o processamento de correção ser um processamento linear e é também possível que um filtro não linear seja usado desde que uma estimativa de parâmetro de correção seja possível. Um exemplo de um método de correção não linear é correção gama. A correção gama pode ser expressa pela fórmula a seguir (6).

[0082] Nos exemplos dos referidos modelos de correções, offset,(a,β), ({Fi,j}, o), e (y,a,b) respectivamente formam os parâmetros de correção. Ou seja, o número de mudanças de parâmetros de correção dependendo do modelo de correção.

[0083] Na medida em que o número de parâmetros de correçãoaumenta, se torna possível se realizar uma correção mais precisa, entretanto, de modo a decidir os referidos parâmetros de correção, é necessário que o número de amostras seja igual ou maior do que o número de parâmetros de correção. Como é descrito abaixo, pelo fato de que a referida amostra forma a imagem de síntese de visão e imagem decodificada da amostra de pixels contidos no grupo ante- riormente descrito Nblk,obj, ao se decidir o modelo de correção de acordo com o número de pixels do grupo Nblk,obj, se torna possível se realizar correções com precisão. Observa-se que usando o máximo de amostras possível na estimativa de parâmetro de correção se permite uma estimativa mais robusta dos parâmetros de correção. Deste modo, é desejável para o modelo de correção ser selecionado de modo a garantir robustez suficiente.

[0084] Após um único modelo de correção ser selecionado, naunidade de estimativa de parâmetro de correção 107e, a imagem de síntese de visão Synth e a imagem decodificada Dec para a amostra pixels contidos no grupo Nblk,obj são obtidas como amostras, e os parâmetros de correção no modelo de correção selecionado são estimados [etapa de estimativa de parâmetro de correção A8].

[0085] Na estimativa dos parâmetros de correção realizada aqui,o valor de pré-correção e o valor corrigido ideal são assumidos como a imagem de síntese de visão e a imagem decodificada, respectivamente. Então os parâmetros de correção são determinados de modo a minimizar a soma de erros, para todos os pixels no grupo Nblk,obj entre o valor ideal e o valor que é um resultado da correção usando o modelo de correção para cada pixel.

[0086] Por exemplo, se o processamento linear é usado para acorreção, então os parâmetros de correção podem ser decididos usando o método de quadrados mínimos. Ou seja, quando M denota a correção, a estimativa pode ser realizada pela minimização de um valor expresso pela Fórmula a seguir (7).

[0087] Ou seja, é possível se determinar os parâmetros de correção ao solucionar equações simultâneas nas quais a derivada parcial de fórmula (7) com relação a cada parâmetro de correção é igual a 0.

[0088] Uma vez que os parâmetros de correção foram estimados,na unidade de correção de imagem de síntese de visão 108, ao corrigir a imagem de síntese de visão Synth para o grupo obj do bloco blk usando os parâmetros de correção, a imagem de previsão Pred é criada para o grupo obj do bloco blk [etapa de correção de imagem de síntese de visão A9].

[0089] Especificamente, como é mostrado no fluxo de processamento na figura 3, o processamento para criar a referida imagem de previsão Pred é realizado para cada pixel. Aqui, no fluxo de processamento na figura 3, pix indica informação de identificação de pixel, e numPixblk,obj indica o número de pixels dentro do grupo obj do bloco blk.

[0090] Por exemplo, no caso da correção que é realizada usandovalores deslocados, a imagem de previsão Pred é criada de acordo com a fórmula acima descrita (3).

[0091] Para a criação da referida imagem de previsão Pred, umexemplo é descrito no qual a correção de fórmula (3) que emprega valores deslocados é realizada como um método de correção (isto é, modelo de correção). Como é mostrado na figura 4, na etapa de estimativa de parâmetro de correção A8, ao se estimar o deslocamento quando os valores de pixel de imagens de síntese de visão para o mesmo objeto que está presente em áreas periféricas que já foram codificadas são obtidos como Im, e os valores de pixel de imagens de-codificadas daquele objeto são obtidas como Out, uma equação de conversão para pixels como modelo de correção é construída. Em seguida, na etapa S9, o processamento é realizado para gerar a imagem de previsão para o grupo obj do bloco blk ao substituir os valores de pixel da imagem de síntese de visão no grupo obj do bloco blk na equação de conversão construída.

[0092] Após a criação da imagem de previsão para o bloco blk ter terminado, na unidade de codificação de imagem 109, a codificação do quadro alvo de codificação Org é realizada para o bloco blk [etapa de codificação de imagem A12] com a imagem de previsão Pred criada na etapa A9 sendo usada para um sinal de previsão.

[0093] Na referida etapa de codificação A12, não há restrições nasquais o método de codificação pode ser usado, entretanto, em um método de codificação típico tal como H.264, a codificação é alcançada ao se aplicar DCT codificação de - quantização - binarização - entropia na diferença entre Org e Pred.

[0094] O fluxo de bits resultando a partir da codificação forma asaída a partir do dispositivo de codificação de vídeo de multivisão 100. Adicionalmente, o fluxo de bits resultando a partir da codificação é decodificado pela unidade de decodificação de imagem 110 para cada bloco, e a imagem decodificada Dec que é o resultado obtido a partir da decodificação é armazenada na memória de imagem decodificada 111 a ser usada para estimar os parâmetros de correção em outros blocos [etapa de decodificação de imagem A13].

[0095] Deste modo, mesmo em casos nos quais discrepânciasde iluminação e cor ocorrem entre câmeras em um modo localizado de acordo com o objeto, o dispositivo de codificação de vídeo de multivisão 100 que é construído da maneira mostrada na figura 1 determina os parâmetros de correção para se opor às referidas discrepâncias em um modo localizado de acordo com o objeto de modo a tornar possível o código vídeo de multivisão com um alto nível de eficiência. Adicionalmente, de modo a evitar qualquer aumento na quantidade de código, o referido dispositivo de codificação de vídeo de multivisão 100 determina os referidos parâmetros de correção da maneira na qual seja desnecessário se codificar/decodificar os pa-râmetros de correção obtidos enquanto o vídeo de multivisão é codificado com a iluminação local e correção de cor.

[0096] Na presente modalidade, um caso foi descrito no qual osinal de imagem do bloco blk é codificado com o uso de imagens de síntese de visão sendo essenciais, entretanto, a previsão que utiliza imagens de síntese de visão descritas na presente modalidade pode também ser usada como apenas um modo de previsão a partir de entre uma pluralidade de modos de previsão.2. Dispositivo de decodificação de vídeo de multivisão de acordo com uma segunda modalidade da presente invenção

[0097] A estrutura de um dispositivo de decodificação de vídeode multivisão 200 de acordo com a segunda modalidade da presente invenção é mostrada na figura 5.

[0098] Como é mostrado na figura 5, no dispositivo de decodifi-cação de vídeo de multivisão 200 da presente modalidade, a unidade de informação de dados codificados 201 recebe dados codificados de imagem (isto é, quadros) de um objeto ou cena fotografada por uma primeira câmera como um alvo de decodificação. A memória de dados codificados 202 armazena informação de dados codificados a partir da unidade de informação de dados codificados 201. Os dados codificados armazenados são fornecidos a uma unidade de decodificação de imagem 209.

[0099] A unidade de informação de imagem de síntese de visão203 recebe informações de imagens de síntese de visão para deco- dificação de imagens alvo. Imagens de síntese de visão foram geradas usando as imagens já decodificadas nas quais o mesmo objeto ou cena foi fotografada pelas segundas câmeras dispostas em diferentes posições a partir da primeira câmera. A memória de imagem de síntese de visão 204 armazena as imagens de síntese de visão informadas a partir da unidade de informação de imagem de síntese de visão 203. Imagens de síntese de visão armazenadas são fornecidas a uma unidade de criação de parâmetro de correção 207 e a unidade de correção de imagem de síntese de visão 208.

[00100] A unidade de entrada de informação de profundidade 205 recebe entradas de informação de profundidade para quadros direcionados para decodificação. A memória de informação de profundidade 206 armazena informação de profundidade informada a partir da unidade de entrada de informação de profundidade 205. A informação de profundidade armazenada é fornecida a uma unidade de criação de parâmetro de correção 207.

[00101] A unidade de criação de parâmetro de correção 207 estima os parâmetros de correção usando imagens de síntese de visão, informação de profundidade, e imagens decodificadas usadas em áreas periféricas da área alvo de decodificação, e usando informação de profundidade usada na área alvo de decodificação. A unidade de correção de imagem de síntese de visão 208 corrige as imagens de síntese de visão da área direcionada para decodificação usando os parâmetros de correção estimados.

[00102] A unidade de decodificação de imagem 209 decodifica os sinais de imagem da área alvo de decodificação usando a imagens de síntese de visão corrigidas como sinais de previsão. (10) A memória de imagem decodificada 210 armazena imagens decodificadas pela unidade de decodificação de imagem 209.

[00103] Como é mostrado na figura 8, a unidade de criação de parâmetro de correção 207 tem uma unidade de determinação de objeto 207a à qual a informação de profundidade é fornecida a partir da memória de informação de profundidade 206, e uma unidade de ajuste de profundidade representativa 207b e uma unidade de ajuste de amostra de grupo de pixel 207c que são conectadas na referida sequência ao lado à jusante da unidade de determinação de objeto 207a. Uma unidade de seleção de modelo de correção 207d e uma unidade de estimativa de parâmetro de correção 207e são conecta- das na referida sequência ao lado à jusante da unidade de ajuste de amostra de grupo de pixel 207c. Imagens decodificadas a partir da memória de imagem decodificada 210 e imagens de síntese de visão a partir da memória de imagem de síntese de visão 204 são fornecidas a uma unidade de estimativa de parâmetro de correção 207e, e parâmetros de correção estimados usando as imagens decodificadas fornecidas e imagens de síntese de visão são fornecidos a uma unidade de correção de imagem de síntese de visão 208.

[00104] A figura 6 mostra o fluxo de processamento executado pelo dispositivo de decodificação de vídeo de multivisão 200 da segunda modalidade que é estruturada do modo acima descrito.

[00105] O processamento executado pelo dispositivo de decodifi- cação de vídeo de multivisão 200 da presente modalidade será agora descrito em detalhes de acordo com o referido fluxo de processamento.

[00106] Primeiramente, os dados codificados para um quadro que é direcionado para decodificação são informados pela unidade de informação de dados de decodificação 201, e são armazenados na memória de dados codificados 202. A imagem de síntese de visão Synth para o quadro alvo de decodificação é informado pela unidade de informação de imagem de síntese de visão 203, e é armazenada na memória de imagem de síntese de visão 204. Informação de pro-fundidade Depth para o quadro alvo de decodificação é informada pela unidade de entrada de informação de profundidade 205, e é armazenada na memória de informação de profundidade 206 [B1].

[00107] A imagem de síntese de visão e a informação de profundidade que são informadas aqui são as mesmas que as obtidas por o dispositivo de codificação. A razão para isto é que, ao se usar as mesmas informações que as informações obtidas no dispositivo de codificação, a geração de ruídos de codificação tal como derivação pode ser suprimida. Entretanto, se a geração do referido ruído de codificação é permissível, então é também possível que informações diferentes a partir das obtidas pelo dispositivo de codificação sejam informadas.

[00108] Observa-se que a informação de profundidade é proporcionada a partir de fora do dispositivo de decodificação de vídeo de multivisão 200, entretanto, como é descrito no Documento não patente 3, é também possível se obter a informação de profundidade ao se estimar a mesma a partir de quadros já decodificados em outras câmeras. Deste modo, não é essencial para a informação de profundidade ser transmitida a partir do lado de transmissão para o lado de recepção. A imagem de síntese de visão é gerada usando quadros já decodificados em câmeras diferentes da primeira câmera e informação de profundidade.

[00109] Em seguida, o quadro alvo de decodificação é dividido em uma pluralidade de áreas alvo de decodificação, e o sinal de imagem do quadro alvo de decodificação são decodificados pela unidade de decodificação de imagem 209 com correção da imagem de síntese de visão para cada uma das referidas áreas [B2-B14].

[00110] Ou seja, se um índice do bloco de processamento de de- codificação é expresso como blk, e se o número total de todos os blocos de processamento de decodificação é expresso como num- Blks, então após blk ser inicializado a 0 [B2], as etapas a seguir [B3- B12] são repetidas com 1 sendo adicionado a blk [B13] até que blk alcance numBlks [B14].

[00111] No processamento que é repetido para cada bloco de processamento de decodificação, o dispositivo de decodificação 200 primeiro determina um grupo de pixels Nblk de áreas periféricas já decodificadas ao bloco blk (isto é, a área alvo de decodificação) [B3].

[00112] Vários tipos de unidades podem ser usadas para as referidas áreas periféricas tais como blocos de processamento de deco- dificação que são adjacentes ao bloco blk, ou pixels adjacentes ou semelhante. Embora uma variedade de definições possa ser usada para as áreas periféricas, é necessário que as mesmas definições que as usadas no lado de codificação sejam usadas.

[00113] Em seguida, a unidade de determinação de objeto 207a da unidade de criação de parâmetro de correção 207 agrupa os pixels dentro do bloco blk usando a informação de profundidade proporcionada para cada pixel como uma referência [etapa de determinação de objeto B4].

[00114] O índice de cada grupo resultando a partir disto é expresso por obj, o número de grupos é expresso por numObjs, e os pixels pertencendo ao grupo obj são expressos como Cobj. O processamento realizado aqui é o mesmo que o realizado na etapa de determinação de objeto A4 da primeira modalidade.

[00115] Uma vez que o agrupamento tenha terminado, a imagem de previsão Pred é criada ao corrigir a imagem de síntese de visão para cada pixel de cada grupo [B5 - B11].

[00116] Ou seja, após o índice de grupo obj ser inicializado a 0 [B5], as etapas [B6 - B8] são realizadas nas quais, com incremento obj por 1 [B10], os parâmetros de correção são estimados de modo a corrigir a imagem de síntese de visão na unidade de criação de parâmetro de correção 207 até que obj alcance numObjs [B11]. Junto com as etapas, na unidade de correção de imagem de síntese de visão 208, uma etapa [B9] para criar a imagem de previsão ao corrigir a imagens de síntese de visão para pixels contidos no grupo obj usando os parâmetros de previsão estimados é realizada.

[00117] O processamento na referida etapa B9 é o mesmo queaquele da etapa A9 da primeira modalidade e, como é mostrado no fluxo de processamento na figura 7, é realizado para cada pixel. Aqui, no fluxo de processamento na figura 7, pix indica informação de identificação de pixel, e numPixblk,obj indica o número de pixels dentro do grupo obj do bloco blk. A estimativa de parâmetro de correção das etapas [B6 - B8] que são realizadas pela unidade de ajuste de profundidade representativa 207b, a unidade de ajuste de amostra de grupo de pixel 207c, a unidade de seleção de modelo de correção 207d, e a unidade de estimativa de parâmetro de correção 207e são as mesmas que as etapas A6 - A8 da primeira modalidade.

[00118] Após a criação da imagem de previsão para o bloco blk ter terminado, na unidade de decodificação de imagem 209, a imagem alvo de decodificação Dec é decodificada para o bloco blk [B12] com a imagem de previsão Pred criada na etapa B9 sendo usada para um sinal de previsão.

[00119] É necessário que o processamento de decodificação realizado aqui corresponda ao método usado quando os dados codificados foram criados. Por exemplo, se a codificação foi realizada usando H. 264, então o processamento de decodificação é realizado ao se adicionar um sinal de previsão ao sinal residual decodificado ao se aplicar decodificação de entropia, multiplexação de valor, quantização inversa, e DCT inversa.

[00120] A imagem decodificada resultando a partir da decodifica- ção forma a saída a partir do dispositivo de decodificação de multivi- são 200, e é armazenada na memória de imagem decodificada 210 a ser usada para estimar parâmetros de correção em outros blocos.

[00121] Deste modo, o dispositivo de decodificação de vídeo de multivisão 200 que é estruturado do modo acima descrito como mostrado na figura 5 decodifica os dados codificados da decodifica- ção de vídeo de multivisão criada pelo dispositivo de codificação de vídeo de multivisão 100 como mostrado na figura 1.

[00122] Na presente modalidade, um caso foi descrito no qual o bloco blk é codificado com o uso de imagens de síntese de visão sendo essenciais. Mesmo em casos nos quais os dados codificados são decodificados ao se empregar como um de uma pluralidade de modos de previsão existentes um modo de previsão que faz uso de imagens de síntese de visão, as imagens são apenas decodificadas de acordo com o fluxo de processamento acima descrito quando o referido modo de previsão está sendo usado, enquanto quando outros modos de previsão estão sendo usados, as imagens podem ser decodificadas ao se usar um método de decodificação convencional que corresponde àquele modo de previsão (isto é, a um dos referidos outros modos de previsão).

[00123] Nas primeira e segunda modalidades acima descritas, as correções são realizadas em todos os blocos, entretanto, é também possível se empregar uma estrutura na qual se realizar ou não a correção é escolhida por codificação de um bit de informação de sinalizador em cada bloco.

[00124] Adicionalmente, um método também existe no qual a confiabilidade dos parâmetros de correção é medida, e então se realizar ou não a correção é escolhida com base no grau de confiabilidade em vez de codificação de um bit de informação de sinalizador.

[00125] Especificamente, é possível, após os parâmetros de correção terem sido determinados na etapa A8 e etapa B8, para calcular um valor que expresse a viabilidade e a eficácia da correção, por exemplo, ao se usar as fórmula (8) a fórmula (10) a seguir. A unidade de correção de imagem de síntese de visão 108 e 208 corrigem imagem de síntese de visão na etapa A9 e etapa B9 e emitem as mesmas como imagens de previsão apenas quando o valor calculado é maior do que um valor limiar predefinido, enquanto em todos os outros casos, a imagem de síntese de visão sem correções é emiti- da como a imagem de previsão.

[00126] O primeiro termo na fórmula (8) mostra a soma das diferenças absolutas entre a imagem decodificada Dec e a imagem de síntese de visão Synth, enquanto o segundo termo mostra a soma de diferenças absolutas entre a imagem decodificada Dec e a imagem de previsão Pred. Ou seja, a fórmula (8) mostra quanto a soma de diferenças absolutas entre o valor verdadeiro e a valor de previsão foi reduzido pela correção. Adicionalmente, o primeiro termo na fórmula (9) mostra a soma das diferenças quadradas entre a imagem decodificada Dec e a imagem de síntese de visão Synth, enquanto o segundo termo mostra a soma de diferenças quadradas entre a imagem decodificada Dec e a imagem de previsão Pred. Ou seja, a fórmula (9) mostra o quanto a soma de diferenças quadradas entre o valor verdadeiro e a valor de previsão foi reduzida pela correção. A Fórmula (10) mostra a viabilidade do modelo de correção nas amostras. Aqui, pelo fato de que todos os referidos valores são determinados usando valores não a partir do bloco alvo de processamento, mas a partir de áreas periféricas do mesmo, é apenas necessário se codificar os referidos valores limiares que são usados universalmente e então proporcionar os mesmos ao lado de decodificação.

[00127] Observar que na presente modalidade, o processamento para codificar ou decodificar um quadro de uma câmera foi descrito, entretanto, ao se repetir o referido processamento para cada quadro, é possível se alcançar a codificação ou decodificação de um vídeo de multivisão. Adicionalmente, ao se repetir o referido processamento para cada câmera, é possível se alcançar a codificação ou decodificação do vídeo de multivisão de uma pluralidade de câmeras.

[00128] O processamento descrito acima pode também ser alcançado pelo computador e programa de computador, e o referido programa pode ser fornecido ao ser registrado em um meio de registro capaz de ser lido por computador, ou pode ser fornecido via uma rede.

[00129] Adicionalmente, nas modalidades acima descritas, a descrição é centrada em um dispositivo de codificação de vídeo de multi- visão e um dispositivo de decodificação de vídeo de multivisão, entretanto, o método de codificação de vídeo de multivisão da presente invenção pode ser alcançado por meio das etapas que correspondem às operações de cada porção do referido dispositivo de codificação de vídeo de multivisão. De mesmo modo, o método de decodificação de vídeo de multivisão da presente invenção pode ser alcançado por meio das etapas que correspondem às operações de cada porção do referido dispositivo de decodificação de vídeo de multivisão.

[00130] Embora as modalidades preferidas da presente invenção tenham sido descritas e ilustradas acima, deve ser entendido que as referidas são exemplos da presente invenção e não devem ser consideradas como limitantes. Adições, omissões, substituições, e outras modificações podem ser produzidas sem se desviar a partir do espírito ou âmbito da presente invenção. Deste modo, a presente invenção não deve ser considerada como limitada pela descrição anterior e é apenas limitada pelo âmbito das reivindicações anexas.

APLICABILIDADE INDUSTRIAL

[00131] A presente invenção pode ser aplicada a processos de codificação de multivisão. Ao se aplicar a presente invenção, é possível se alcançar codificação e decodificação altamente eficiente de imagem de multivisão e vídeo de multivisão no qual há discrepâncias de iluminação e cor dependentes de objeto e locais entre câmeras, e que é capaz de grandemente reduzir a quantidade de código necessária em casos que a presente invenção é empregada.Símbolos de Referência100 ... Dispositivo de codificação de vídeo de multivisão101 ... Unidade de entrada de imagem alvo de codificação102 . Memória de imagem alvo de codificação103 . Unidade de informação de imagem de síntese de visão104 . Memória de imagem de síntese de visão105 . Unidade de entrada de informação de profundidade106 . Memória de informação de profundidade107 . Unidade de criação de parâmetro de correção108 . Unidade de correção de imagem de síntese de visão109 . Unidade de codificação de imagem110 . Unidade de decodificação de imagem111 . Memória de imagem decodificada200 . Dispositivo de decodificação de vídeo de multivisão201 . Unidade de informação de dados codificados202 . Memória de dados codificados203 . Unidade de informação de imagem de síntese de visão204 . Memória de imagem de síntese de visão205 . Unidade de entrada de informação de profundidade206 . Memória de informação de profundidade207 . Unidade de criação de parâmetro de correção208 . Unidade de correção de imagem de síntese de visão209 . Unidade de decodificação de imagem210 . Memória de imagem decodificada

Claims

1. Método de codificação de imagem de multivisão no qual uma imagem de entrada de um objeto que é fotografado por uma primeira câmera é dividida em uma pluralidade de áreas alvo de codificação e, usando a imagem de síntese de visão que é sintetizada a partir de informação de profundidade para a imagem de entrada e a partir da imagem já codificada do mesmo objeto fotografado por uma segunda câmera que é localizada em uma posição diferente a partir da primeira câmera, a codificação previsível é realizada para cada uma das áreas alvo de codificação, compreendendo:uma etapa de codificação de imagem (A12) na qual, usando a imagem de síntese de visão, um sinal de imagem da imagem alvo de codificação é codificado de modo a criar dados codificados, os dados codificados sendo decodificados de modo a criar uma imagem de-codificada para a área alvo de codificação em uma etapa de decodifi- cação de imagem (A13),o método de codificação de imagem multivisão caracterizado pelo fato de que compreende:uma etapa de ajuste de profundidade representativa (A6) na qual a informação de profundidade representativa para um objeto fotografado na área alvo de codificação é ajustada;uma etapa de ajuste de amostra de grupo de pixel (A6) na qual um grupo de pixels onde o mesmo objeto que na área alvo de codificação foi fotografado é determinada na imagem inserida pela seleção de pixels, em que uma diferença absoluta entre um valor de profundidade do mesmo e o valor de profundidade representativa é menor que um limite predefinido de uma área já codificada que é adjacente à área alvo de codificação e o grupo de pixels é ajustado como uma amostra de grupo de pixel;uma etapa de estimativa de parâmetro de correção (A8) na qual, baseada na imagem de síntese de visão para a amostra de grupo de pixel e na imagem decodificada que foi decodificada para a amostra de grupo de pixel, parâmetros de correção para corrigir pela menos uma dentre discrepâncias de iluminação e cor são estimados de modo a minimizar uma soma de valores que representam erro entre um valor de pixel da imagem decodificada para o mesmo grupo de pixel e um valor que é corrigido com o uso de um modelo de correção para o mesmo grupo de pixel; euma etapa de correção de imagem de síntese de visão (A9) na qual a imagem de síntese de visão para objeto é corrigido de modo a criar uma imagem de síntese de visão corrigida pela aplicação de uma função de correção definida pelo parâmetro de correção para a imagem de síntese de visão;em que o sinal de imagem da imagem alvo de codificação é codificado usando a imagem de síntese de visão corrigida na etapa de codificação de imagem (A12).

2. Método de codificação de imagem de multivisão, de acordo com a reivindicação 1, caracterizado pelo fato de queé proporcionada uma etapa de determinação de objeto (A4) na qual pixels na área alvo de codificação são divididos em um ou diversos grupos usando informação de profundidade para os pixels relevantes como uma referência, ena etapa de ajuste de profundidade representativa, a informação de profundidade representativa é ajustada para cada grupo determinado na etapa de determinação de objeto,na etapa de ajuste de amostra de grupo de pixel, uma amostra de grupo de pixel é ajustada para cada grupo determinado na etapa de determinação de objeto,na etapa de estimativa de parâmetro de correção, parâmetros de correção são estimados para cada grupo determinado na etapa de determinação de objeto, ena etapa de correção de imagem de síntese de visão, a imagem de síntese de visão é corrigida para cada grupo determinado na etapa de determinação de objeto.

3. Método de codificação de imagem de multivisão, de acordo com a reivindicação 1 ou 2, caracterizado pelo fato de queé proporcionada uma etapa de seleção de modelo de correção (A7) na qual um modelo de correção é selecionado para corrigir a imagem de síntese de visão para a área alvo de codificação de acordo com o número de pixels na amostra de grupo de pixel, ena etapa de estimativa de parâmetro de correção, parâmetros de correção para o modelo de correção selecionado na etapa de seleção de modelo de correção são estimados, ena etapa de correção de imagem de síntese de visão, a imagem de síntese de visão é corrigida usando o modelo de correção selecionado na etapa de seleção de modelo de correção.

4. Método de decodificação de imagem de multivisão no qual uma imagem alvo de decodificação de um objeto que é fotografado por uma primeira câmera é dividida em uma pluralidade de áreas alvo de decodificação, e usando a imagem de síntese de visão que é sintetizada a partir de informação de profundidade para a imagem alvo de decodificação e a partir de uma imagem já decodificada do mesmo objeto fotografado por uma segunda câmera que é localizada em uma posição diferente a partir da primeira câmera, decodificação previsível é realizada para cada uma das áreas alvo de decodificação, compreendendo:uma etapa de decodificação de imagem (B12) na qual, usando a imagem de síntese de visão, um sinal de imagem da imagem alvo de decodificação é decodificado;o método de decodificação de imagem de multivisão carac- terizado pelo fato de que compreende:uma etapa de ajuste de profundidade representativa (B6) na qual informação de profundidade representativa para um objeto fotografado na área alvo de decodificação é ajustada;uma etapa de ajuste de amostra de grupo de pixel (B6) na qual um grupo de pixel onde o mesmo objeto que na área alvo de de- codificação foi fotografado é determinada na imagem alvo de decodifi- cação pela seleção de pixels, em que uma diferença absoluta entre um valor de profundidade do mesmo e o valor de profundidade representativa é menor que um limite predefinido de uma área já decodificada que é adjacente à área alvo de decodificação e o grupo de pixels é ajustado como uma amostra de grupo de pixel;uma etapa de estimativa de parâmetro de correção (B8) na qual, baseada na imagem de síntese de visão para a amostra de grupo de pixel e na imagem decodificada que foi decodificada para a amostra de grupo de pixel, parâmetros de correção para corrigir pelo menos uma dentre as discrepâncias de iluminação e cor são estimados de modo a minimizar uma soma de valores que representam erro entre um valor de pixel da imagem decodificada para o mesmo grupo de pixel e um valor que é corrigido usando um modelo de correção para o mesmo grupo de pixel; euma etapa de correção de imagem de síntese de visão (B9) na qual a imagem de síntese de visão para o objeto é corrigida de modo a criar uma imagem de síntese de visão corrigida pela aplicação de uma função de correção definida pelos parâmetros de correção para a imagem de síntese de visão;em que o sinal de imagem da imagem alvo de decodifica- ção é decodificado usando a imagem de síntese de visão corrigida na etapa de decodificação de imagem (B12).

5. Método de decodificação de imagem de multivisão, de acordo com a reivindicação 4, caracterizado pelo fato de queé proporcionada uma etapa de determinação de objeto (B4) na qual pixels na área alvo de decodificação são divididos em um ou diversos grupos usando informação de profundidade para os pixels relevantes como uma referência, ena etapa de ajuste de profundidade representativa, a informação de profundidade representativa é ajustada para cada grupo determinado na etapa de determinação de objeto,na etapa de ajuste de amostra de grupo de pixel, uma amostra de grupo de pixel é ajustada para cada grupo determinado na etapa de determinação de objeto,na etapa de estimativa de parâmetro de correção, parâmetros de correção são estimados para cada grupo determinado na etapa de determinação de objeto, ena etapa de correção de imagem de síntese de visão, a imagem de síntese de visão é corrigida para cada grupo determinado na etapa de determinação de objeto.

6. Método de decodificação de imagem de multivisão, de acordo com a reivindicação 4 ou 5, caracterizado pelo fato de queé proporcionada uma etapa de seleção de modelo de correção (B7) na qual um modelo de correção é selecionado para corrigir a imagem de síntese de visão para a área alvo de decodificação de acordo com o número de pixels na amostra de grupo de pixel, ena etapa de estimativa de parâmetro de correção, parâmetros de correção para o modelo de correção selecionado na etapa de seleção de modelo de correção são estimados, ena etapa de correção de imagem de síntese de visão, a imagem de síntese de visão é corrigida usando o modelo de correção selecionado na etapa de seleção de modelo de correção.

7. Dispositivo de codificação de imagem de multivisão que codifica imagens de multivisão ao dividir uma imagem de entrada de um objeto que é fotografado por uma primeira câmera em uma pluralidade de áreas alvo de codificação e, usando a imagem de síntese de visão que é sintetizada a partir de informação de profundidade para a imagem de entrada e a partir de uma imagem já codificada do mesmo objeto fotografado por uma segunda câmera que é localizada em uma posição diferente a partir da primeira câmera, ao realizar co-dificação previsível para cada uma das áreas alvo de codificação, compreendendo:uma unidade de codificação de imagem (109) que, usando a imagem de síntese de visão, codifica um sinal de imagem da imagem alvo de codificação de modo a criar dados codificados, os dados codificados sendo decodificados de modo a criar uma imagem decodi-ficada para a área alvo de codificação por uma unidade de decodifica- ção de imagem (110),o dispositivo de codificação de imagem multivisão caracterizado pelo fato de que compreende:uma unidade de ajuste de profundidade representativa (107b) que ajusta informação de profundidade representativa para um objeto fotografado na área alvo de codificação;uma unidade de ajuste de amostra de grupo de pixel (107c) a qual determina um grupo de pixels onde o mesmo objeto que na área alvo de codificação foi fotografado na imagem inserida pela seleção de pixels, em que uma diferença absoluta entre um valor de profundidade do mesmo e o valor de profundidade representativa é menor que um limite predefinido de uma área já codificada que é adjacente à área alvo de codificação e o grupo de pixels é ajustado como uma amostra de grupo de pixel;uma unidade de estimativa de parâmetro de correção (107e) a qual, baseada na imagem de síntese de visão para a amostra de grupo de pixel e na imagem decodificada que já foi decodificada para a amostra de grupo de pixel, estima os parâmetros de correção para corrigir pelo menos uma dentre discrepâncias de iluminação e cor de modo a minimizar uma soma de valores que representam erro entre um valor de pixel da imagem decodificada para o mesmo grupo de pixel de amostra e um valor que é corrigido usando um modelo de correção para o mesmo grupo de pixel; euma unidade de correção de imagem de síntese de visão (108) a qual corrige a imagem de síntese de visão para o objeto de modo a criar uma imagem de síntese de visão corrigida pela aplicação de uma função de correção definida pelos parâmetros de correção para a imagem de síntese de visão;em que a unidade de codificação de imagem (109) codifica o sinal de imagem da imagem alvo de codificação usando a imagem de síntese de visão corrigida.

8. Dispositivo de decodificação de imagem de multivisão que decodifica dados codificados para imagem de multivisão ao dividir uma imagem alvo de decodificação de um objeto que é fotografado por uma primeira câmera em uma pluralidade de áreas alvo de decodifica- ção e, usando a imagem de síntese de visão que é sintetizada a partir de informação de profundidade para a imagem alvo de decodificação e a partir de uma imagem já decodificada do mesmo objeto fotografado por uma segunda câmera que é localizada em uma posição diferente a partir da primeira câmera, ao realizar decodificação previsível para cada uma das áreas alvo de decodificação, compreendendo:uma unidade de decodificação de imagem (209) que, usando a imagem de síntese de visão, decodifica um sinal de imagem da imagem alvo decodificada;o dispositivo de decodificação de imagem multivisão caracterizado pelo fato de que compreende: uma unidade de ajuste de profundidade representativa (207b) que ajusta informação de profundidade representativa para um objeto fotografado na área alvo de decodificação;uma unidade de ajuste de amostra de grupo de pixel (207c) na qual um grupo de pixels onde o mesmo objeto que na área alvo de decodificação foi fotografado é determinado na imagem alvo de deco- dificação pela seleção de pixels, em que uma diferença absoluta entre um valor de profundidade do mesmo e a profundidade representativa é menor que um limite predefinido de uma área já decodificada que é adjacente à área alvo de decodificação e o grupo de pixels é definido como uma amostra de grupo de pixel;uma unidade de estimativa de parâmetro de correção (207e) a qual, baseada na imagem de síntese de visão para a amostra de grupo de pixel e na imagem decodificada que foi decodificada para a amostra de grupo de pixel, estima os parâmetros de correção para corrigir pela menos uma dentre as discrepâncias de iluminação e cor de modo a minimizar uma soma de valores que representam erro entre um valor de pixel da imagem decodificada para o mesmo grupo de pixel e um valor que é corrigido usando um modelo de correção para o mesmo grupo de pixel; euma unidade de correção de imagem de síntese de visão (208) a qual corrige a imagem de síntese de visão para o objeto de modo a criar uma imagem de síntese de visão corrigida pela aplicação de uma função de correção definida pelos parâmetros de correção para a imagem de síntese de visão; eem que a unidade de decodificação de imagem (209) decodifica o sinal de imagem da imagem alvo de decodificação usando a imagem de síntese de visão corrigida.