BRPI0912307B1 - método de comunicação por vídeo tridimensional - Google Patents
método de comunicação por vídeo tridimensional Download PDFInfo
- Publication number
- BRPI0912307B1 BRPI0912307B1 BRPI0912307-5A BRPI0912307A BRPI0912307B1 BR PI0912307 B1 BRPI0912307 B1 BR PI0912307B1 BR PI0912307 A BRPI0912307 A BR PI0912307A BR PI0912307 B1 BRPI0912307 B1 BR PI0912307B1
- Authority
- BR
- Brazil
- Prior art keywords
- session
- video
- entity
- entities
- terminal
- Prior art date
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/141—Systems for two-way working between two video terminals, e.g. videophone
- H04N7/147—Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/10—Processing, recording or transmission of stereoscopic or multi-view image signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/20—Image signal generators
- H04N13/204—Image signal generators using stereoscopic image cameras
- H04N13/239—Image signal generators using stereoscopic image cameras using two two-dimensional [2D] image sensors having a relative position equal to or related to the interocular distance
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/30—Image reproducers
- H04N13/356—Image reproducers having separate monoscopic and stereoscopic modes
- H04N13/359—Switching between monoscopic and stereoscopic modes
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/30—Image reproducers
- H04N13/361—Reproducing mixed stereoscopic images; Reproducing mixed monoscopic and stereoscopic images, e.g. a stereoscopic image overlay window on a monoscopic image background
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/15—Conference systems
- H04N7/152—Multipoint control units therefor
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Telephonic Communication Services (AREA)
- Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
Abstract
método, aparelho e sistema para comunicação por 3d. a presente invenção refere-se a tecnologias de comunicação de vídeo, e mostra um método, um aparelho e um sistema para uma comunicação de vídeo 3d. considerando-se que a técnica anterior permite apenas uma comunicação de vídeo 3d de par a par e é incapaz de se adequar às exigências de comunicação, o método de comunicação de vídeo 3d provido aqui inclui: o recebimento de uma informação de vídeo de pelo menos duas partes de sessão, em que a informação de vídeo de pelo menos uma parte de sessão é uma informação de vídeo 3d; e o processamento da informação de vídeo recebida a partir de pelo menos duas partes de sessão de acordo com a informação de estado de pelo menos duas partes de sessão e as capacidades de exibição de um terminal. a solução técnica segundo a presente invenção é aplicável a redes de comunicação de vídeo.
Description
[0001] A presente invenção se refere a tecnologias de comunicação de vídeo e, em particular, a um método, um aparelho e um sistema para uma comunicação de vídeo tridimensional (3D).
[0002] A imagem de vídeo tradicional é um meio de informação bidimensional (2D), o qual apresenta apenas o conteúdo da cena, mas ignora a informação de profundidade, tal como a distância e a localização do objeto. Portanto, a imagem de vídeo 2D tradicional é incompleta. As pessoas estão acostumadas a observar coisas de forma binocular e, portanto, mais informação além de uma ilustração 2D é requerida para que as pessoas obtenham a informação espacial necessária. A tecnologia de vídeo 3D provê ilustrações as quais estão em conformidade com os princípios visuais 3D e portam uma informação de profundidade, reconstrói o objeto físico de forma autêntica, apresenta a cena com a sensação de profundidade, perspectiva e realidade, e é uma tendência da tecnologia de vídeo. O desenvolvimento da tecnologia de vídeo 3D começou nos anos 1980, mas a tecnologia não foi aplicada massivamente devido à imaturidade técnica, alto custo do dispositivo de exibição e falta de padronização. Nos últimos anos, com o aperfeiçoamento das tecnologias relevantes, a queda do custo do dispositivo e o lançamento de normas relevantes, a tecnologia de vídeo 3D é colocada em uso prático, e a comunicação de vídeo 3D se torna uma questão palpitante no campo de pesquisa de vídeo 3D.
[0003] A técnica anterior mostra uma estação de trabalho de videoconferência 3D. A estação de trabalho inclui uma câmera de vídeo dupla para a captura de sinais de vídeo e um aparelho de cálculo de imagem de profundidade para a criação de uma imagem de profundidade. Os sinais de vídeo e a informação de profundidade são transmitidos como dados de vídeo 3D. Além disso, a estação de trabalho inclui um dispositivo de exibição 3D para a exibição de imagens 3D. O aparelho de cálculo de imagem de profundidade pode estimar a localização de um usuário, e é configurado para exercer controle para a geração de imagens 3D.
[0004] A técnica anterior também mostra um terminal de comunicação de imagem 3D para a exibição de uma informação de imagem 3D. O terminal inclui: um módulo de entrada de imagem 3D com múltiplas câmeras para a captura de imagens 3D; um módulo de exibição de imagem 3D, configurado para a exibição de uma informação de imagem 3D; e um módulo de comunicação, configurado para a transmissão de pelo menos uma informação de imagem 3D obtida pelo módulo de entrada de imagem 3D. O módulo de exibição de imagem 3D é composto por um dispositivo de exibição de paralaxe horizontal/vertical que integra tipos de formação de imagem. As câmeras são dispostas pelo menos a partir do topo para baixo e a partir da esquerda para a direita próximas do dispositivo de exibição de imagem 3D.
[0005] No processo de desenvolvimento da presente invenção, o inventor descobre pelo menos estes defeitos na técnica anterior: a comunicação de vídeo 3D é capaz de uma comunicação apenas de par a par e exibir a imagem de vídeo 3D de uma única entidade, e não é capaz de realizar uma comunicação de vídeo 3D de entidade múltipla. Portanto, com o rápido desenvolvimento da tecnologia de comunicação, a implementação da comunicação de vídeo de entidade múltipla 3D ou uma comunicação de vídeo de entidade múltipla híbrida de 2D/3D se torna uma exigência urgente.
[0006] As modalidades da presente invenção provêem um método, um aparelho e um sistema para uma comunicação de vídeo 3D para a implementação de uma comunicação de video de entidade múltipla 3D ou uma comunicação de video de entidade múltipla hibrida de 2D/3D.
[0007] A solução técnica segundo a presente invenção é implementada da forma a seguir:
[0008] Um método de comunicação de vídeo 3D provido em uma modalidade da presente invenção inclui:
o recebimento de uma informação de vídeo de pelo menos duas entidades de sessão, onde a informação de vídeo de pelo menos uma entidade de sessão é uma informação de vídeo 3D; e
o processamento da informação de vídeo recebida a partir de pelo menos duas entidades de sessão e capacidades de exibição de um terminal.
o recebimento de uma informação de vídeo de pelo menos duas entidades de sessão, onde a informação de vídeo de pelo menos uma entidade de sessão é uma informação de vídeo 3D; e
o processamento da informação de vídeo recebida a partir de pelo menos duas entidades de sessão e capacidades de exibição de um terminal.
[0009] Um sistema de comunicação de vídeo 3D provido em uma modalidade da presente invenção inclui:
pelo menos duas entidades de sessão, configuradas para o envio de uma informação de vídeo para um terminal de comunicação por vídeo, onde a informação de vídeo de pelo menos uma entidade de sessão é uma informação de vídeo 3D; e
um terminal de comunicação de vídeo, configurado para: receber a informação de vídeo de pelo menos entidades de sessão, e o processamento da informação de vídeo recebida a partir de pelo menos duas entidades de sessão de acordo com a informação de estado de pelo menos duas entidades de sessão e as capacidades de exibição do terminal.
pelo menos duas entidades de sessão, configuradas para o envio de uma informação de vídeo para um terminal de comunicação por vídeo, onde a informação de vídeo de pelo menos uma entidade de sessão é uma informação de vídeo 3D; e
um terminal de comunicação de vídeo, configurado para: receber a informação de vídeo de pelo menos entidades de sessão, e o processamento da informação de vídeo recebida a partir de pelo menos duas entidades de sessão de acordo com a informação de estado de pelo menos duas entidades de sessão e as capacidades de exibição do terminal.
[00010] Um sistema de comunicação de vídeo 3D provido em uma modalidade da presente invenção inclui:
uma unidade de controle de ponto múltiplo (MCU), configurada para: receber uma informação de vídeo de pelo menos duas entidades de sessão, onde a informação de vídeo de pelo menos uma entidade de sessão é uma informação de vídeo 3D; processar a informação de vídeo recebida a partir de pelo menos duas entidades de sessão de acordo com a informação de estado de pelo menos duas entidades de sessão e as capacidades de exibição de um terminal, e obter a informação de vídeo processada; e
um terminal de comunicação de vídeo, configurada para a obtenção e a exibição da informação de vídeo processada.
uma unidade de controle de ponto múltiplo (MCU), configurada para: receber uma informação de vídeo de pelo menos duas entidades de sessão, onde a informação de vídeo de pelo menos uma entidade de sessão é uma informação de vídeo 3D; processar a informação de vídeo recebida a partir de pelo menos duas entidades de sessão de acordo com a informação de estado de pelo menos duas entidades de sessão e as capacidades de exibição de um terminal, e obter a informação de vídeo processada; e
um terminal de comunicação de vídeo, configurada para a obtenção e a exibição da informação de vídeo processada.
[00011] Um aparelho de comunicação de vídeo 3D provido em uma modalidade da presente invenção inclui:
um módulo de recepção, configurado para obter uma informação de vídeo e uma informação de estado de pelo menos duas entidades de sessão, bem como capacidades de exibição de um terminal, onde a informação de vídeo de pelo menos uma entidade de sessão é uma informação de vídeo 3D; e
um módulo de processamento, configurado para processamento da informação de vídeo recebida a partir de pelo menos duas entidades de sessão de acordo com a informação de estado de pelo menos duas entidades de sessão e as capacidades de exibição do terminal.
um módulo de recepção, configurado para obter uma informação de vídeo e uma informação de estado de pelo menos duas entidades de sessão, bem como capacidades de exibição de um terminal, onde a informação de vídeo de pelo menos uma entidade de sessão é uma informação de vídeo 3D; e
um módulo de processamento, configurado para processamento da informação de vídeo recebida a partir de pelo menos duas entidades de sessão de acordo com a informação de estado de pelo menos duas entidades de sessão e as capacidades de exibição do terminal.
[00012] Através do método, do aparelho e do sistema para comunicação de vídeo 3D providos em uma modalidade da presente invenção, um terminal capaz de exibir as imagens 3D recebe uma informação de vídeo de pelo menos duas entidades de sessão, e exibe a informação de vídeo recebida a partir de cada entidade de sessão de uma forma 3D ou 2D, assim se implementando uma comunicação de vídeo 3D de entidade múltipla ou uma comunicação de vídeo de entidade múltipla híbrida de 2D/3D. Portanto, o usuário pode realizar uma comunicação de vídeo 3D com múltiplas entidades de sessão simultaneamente, e obter uma melhor experiência da comunicação de vídeo 3D.
[00013] A FIG. 1 mostra os princípios básicos de um vídeo 3D em uma modalidade da presente invenção;
a FIG. 2 mostra uma imagem de olho esquerdo e o mapa de paralaxe correspondente em uma modalidade da presente invenção;
a FIG. 3 mostra uma estrutura de rede de um sistema de comunicação de vídeo 3D em uma modalidade da presente invenção;
a FIG. 4 mostra um primeiro modo de exibição de comunicação de vídeo 3D em uma modalidade da presente invenção;
a FIG. 5 é um fluxograma de um método para um terminal para sintetização de uma informação de vídeo de todas as entidades de sessão em uma modalidade da presente invenção;
a FIG. 6 mostra o segundo modo de exibição de comunicação de vídeo 3D em uma modalidade da presente invenção;
a FIG. 7 é um fluxograma do terceiro modo de exibição de comunicação de vídeo 3D em uma modalidade da presente invenção;
a FIG. 8 mostra uma conferencia de ponto múltiplo que emprega uma MCU em uma modalidade da presente invenção;
a FIG. 9 é um fluxograma de um método para uso de uma MCU para a implementação de uma comunicação de vídeo 3D em uma modalidade da presente invenção;
a FIG. 10 mostra uma estrutura de um sistema de comunicação de vídeo 3D em uma modalidade da presente invenção; e
a FIG. 11 mostra uma estrutura de um outro sistema de comunicação de vídeo 3D em uma modalidade da presente invenção.
a FIG. 2 mostra uma imagem de olho esquerdo e o mapa de paralaxe correspondente em uma modalidade da presente invenção;
a FIG. 3 mostra uma estrutura de rede de um sistema de comunicação de vídeo 3D em uma modalidade da presente invenção;
a FIG. 4 mostra um primeiro modo de exibição de comunicação de vídeo 3D em uma modalidade da presente invenção;
a FIG. 5 é um fluxograma de um método para um terminal para sintetização de uma informação de vídeo de todas as entidades de sessão em uma modalidade da presente invenção;
a FIG. 6 mostra o segundo modo de exibição de comunicação de vídeo 3D em uma modalidade da presente invenção;
a FIG. 7 é um fluxograma do terceiro modo de exibição de comunicação de vídeo 3D em uma modalidade da presente invenção;
a FIG. 8 mostra uma conferencia de ponto múltiplo que emprega uma MCU em uma modalidade da presente invenção;
a FIG. 9 é um fluxograma de um método para uso de uma MCU para a implementação de uma comunicação de vídeo 3D em uma modalidade da presente invenção;
a FIG. 10 mostra uma estrutura de um sistema de comunicação de vídeo 3D em uma modalidade da presente invenção; e
a FIG. 11 mostra uma estrutura de um outro sistema de comunicação de vídeo 3D em uma modalidade da presente invenção.
[00014] De modo a se tornarem mais claros a solução técnica, os objetivos e os méritos da presente invenção, o que vem a seguir descreve a presente invenção em maiores detalhes com referência aos desenhos associados e às modalidades preferidas.
[00015] A comunicação de vídeo 3D simula a visão humana, e usa câmeras para a captura de uma imagem de olho esquerdo e uma imagem de olho direito. Como resultado, quando uma pessoa assiste a um vídeo 3D, o olho esquerdo vê a imagem de olho esquerdo e o olho direito vê a imagem de olho direito. Portanto, a pessoa vê imagens estereoscópicas e percebe a profundidade da cena. As imagens de vídeo 3D são categorizadas em imagens de olho esquerdo e imagens de olho direito, e existe uma paralaxe entre os dois tipos de imagem.
[00016] Conforme mostrado na FIG. 1, um sistema de câmera dupla paralela é aplicado em uma modalidade da presente invenção. Na parte esquerda da FIG. 1, A e Β são dois pontos em uma cena real, OLe OR são os centros óticos da câmera esquerda e da câmera direita, respectivamente, e a distância entre OL e OR é C. Neste caso, um sistema de câmera paralela é aplicado, especificamente, a linha que conecta OL e OR é paralela ao plano de projeção e ao terreno. As distâncias a partir dos centros óticos das duas câmeras até o plano de posição fechada são ambos f, especificamente, os comprimentos focais das câmeras são ambos f. A'L e A'R são projeções de A no plano de projeção com respeito à câmera esquerda e à câmera direita, respectivamente; B'L e B'R são projeções de Β no plano de projeção com respeito à câmera direita, respectivamente. Conforme mostrado na parte direita da FIG. 1, suponha que exista uma câmera cujo centro ótico OM caia no ponto médio da linha entre OL e OR, a projeção Β no plano de projeção com respeito à câmera OM será BM. Neste caso, apontando OM como a origem das coordenadas, as coordenadas espaciais de Β serão (x, y, z), pela observação da projeção de Β sobre o plano de projeção com respeito à câmera OM da perspectiva do plano Y-Z, a relação geométrica mostrada na parte direita da FIG. 1 pode ser obtida. Na parte direita da FIG. 1, suponha que a linha vertical de OM até o plano de projeção intercepte o plano em F, a distância entre OM e F será f, especificamente, OMF = f; supondo que a linha vertical a partir de Β até OMF intercepte OMF em E, BE = y e OME = z. Devido ao fato de o triângulo OMEB ser similar ao triângulo OMFBM, as fórmulas a seguir são inferidas:
[00017] De acordo com a fórmula (1) e a FIG. 1, o valor de comprimento de BMF é a coordenada de eixo Y do ponto de projeção BM no plano de projeção. Da mesma forma, a coordenada de eixo X de BM no plano de projeção pode ser deduzida. Se as coordenadas de eixo X e de eixo Y de BM no plano de projeção forem representadas por u e v respectivamente, a fórmula a seguir se aplicará:
[00018] A câmera OL se desvia da câmera OM -c/2 no eixo X, e a câmera OR se desvia da câmera OM no eixo X +c/2. Portanto, para um ponto X (x, y, z), as fórmulas a seguir refletem a coordenada de eixo X UL e a coordenada de eixo Y VL da posição fechada de X no plano de projeção com respeito à câmera OL, e refletem a coordenada de eixo X ur e a coordenada de eixo Y VR da posição fechada de X no plano de projeção com respeito à câmera OR:
[00019] Devido ao sistema de câmera paralela, a distância entre um ponto em uma imagem e sua contraparte na outra imagem na direção vertical (eixo Y) pode ser julgada como 0, e a distância entre o ponto e sua contraparte apenas existe na direção horizontal, conforme expresso abaixo:
[00020] Conforme pode ser visto, uma paralaxe na direção horizontal existe entre a imagem de olho esquerdo e a imagem de olho direito. A paralaxe está relacionada à profundidade do ponto de formação de imagem na cena. Portanto, a paralaxe pode ser convertida na profundidade e vice-versa.
[00021] Se comparado com o vídeo 2D, o vídeo 3D envolve mais dados, e os dados criados massivamente são difíceis de armazenar e transmitir. Portanto, os dados redundantes nos dados de vídeo 3D precisam ser eliminados tanto quanto possível. Atualmente, a redundância de dados dos dados de vídeo 3D no domínio de espaço e no domínio de tempo pode ser eliminada através de uma predição intraquadro e de uma predição interquadro, e redundância de dados de domínio de espaço dos dados de vídeo 3D precisa ser eliminada entre a imagem de olho esquerdo e a imagem de olho direito. Portanto, uma tecnologia de compensação de estimativa de paralaxe/profundidade para eliminação de redundância de domínio de espaço entre a imagem de olho esquerdo e a imagem de olho direito torna-se uma tecnologia chave na codificação de vídeo 3D. De modo similar à tecnologia de compensação de estimativa de movimento, a tecnologia de compensação de estimativa de paralaxe/profundidade usa a relevância entre duas ou mais imagens para a eliminação da redundância de dados de domínio de espaço entre as imagens. A imagem de paralaxe/profundidade é obtida, geralmente, através de uma cobertura estereoscópica para a imagem de olho esquerdo e a imagem de olho direito.
[00022] Conforme mostrado na FIG. 2, a imagem no lado esquerdo é a imagem de olho esquerdo, e a imagem no lado direito é um mapa de paralaxe (o que usa uma informação de luminância para expressão da informação de disparidade de cada ponto de pixel na imagem). A FIG. 2 revela que a paralaxe da área de imagem mais próxima do observador é maior, e a luminância dessa área de imagem é mais alta; a paralaxe na área de imagem mais distante do observador é menor, e a luminância dessa área de imagem é mais baixa. Portanto, de acordo com a relação entre a paralaxe e a profundidade, um mapa de paralaxe pode ser facilmente convertido em um mapa de profundidade. Uma imagem de olho direito pode ser derivada a partir de uma imagem de olho esquerdo de acordo com a informação de paralaxe/profundidade (o método de conversão básico é: um pixel na imagem de olho esquerdo é adicionado a um desvio de paralaxe para a obtenção do pixel correspondente na imagem de olho direito). Através da tecnologia precedente, a transmissão da informação de dados na imagem de olho direito é evitada ou reduzida, e a eficiência de codificação é melhorada. Mais ainda, com a informação de profundidade na cena filmada, a imagem de um ponto de vista em que uma câmera virtual é colocada pode ser gerada de acordo com um modelo de formação de imagem de câmera, e o usuário pode ver a imagem da cena de um ponto de vista em que nenhuma câmera está colocada. Portanto, quando o usuário assiste a uma imagem estereoscópica através de um visor estereoscópico automático, a paralaxe nunca muda, devido à mudança da localização e a imagem estereoscópica nunca muda nos olhos do observador, e, assim, o usuário pode ver as imagens 3D apropriadas em localizações diferentes.
[00023] Conforme mostrado na FIG. 3, nesta modalidade, o sistema de comunicação de vídeo pode ser estabelecido em uma rede de domínio de pacote comutado, tal como uma rede de área local (LAN), uma rede digital de serviço integrado (ISDN) de banda estreita e uma ISDN de banda larga ou E1, e é composto por gateways, uma MCU, terminais de comunicação de vídeo 2D, terminais de comunicação de vídeo 3D e outros dispositivos. O gateway permite uma comunicação bidirecional em tempo real com um terminal na rede de domínio de pacote comutado ou um outro gateway. A MCU é um nó em uma rede, o qual permite uma comunicação de vídeo de entidade múltipla (por exemplo, uma conferência de ponto múltiplo) para três ou mais terminais e os gateways. A MCU também conecta dois terminais para a realização de uma comunicação de vídeo de ponto a ponto, a qual então é estendida para uma comunicação de vídeo de entidade múltipla. A MCU pode incluir um controlador de ponto múltiplo (MC) e um processador de ponto múltiplo (MP). O MC provê a função de controle para a comunicação de video de entidade múltipla, e pode realizar uma negociação de capacidade com os terminais e controlar os recursos de conferência. Sob o controle do MC, o MP realiza um processamento centralizado (tal como mistura e comutação) para as transmissões contínuas de áudio, vídeo e/ou dados na comunicação de vídeo de entidade múltipla. O terminal de comunicação de vídeo 2D é um videofone, um terminal de videoconferência ou um terminal de comunicação de vídeo de computador pessoal. O terminal de comunicação de vídeo 3D é capaz de processar e exibir imagens 3D.
[00024] Na estrutura de rede precedente, antes de um terminal iniciar uma sessão de comunicação de vídeo, o terminal negocia as capacidades com o par através do terminal ou do MC. Se ambas as entidades forem sistemas de comunicação de vídeo 3D, ambas as entidades poderão ver as imagens de vídeo 3D em tempo real. Se uma entidade for um terminal de vídeo 2D, o qual não atende às condições da comunicação de vídeo 3D, a comunicação de vídeo 2D será realizada entre ambas as entidades.
[00025] O terminal de comunicação de vídeo 3D em uma modalidade da presente invenção pode receber a informação de vídeo 3D enviada por múltiplas entidades de sessão. O formato de informação de vídeo pode ser: imagem de olho esquerdo + imagem de olho direito, imagem de olho esquerdo + informação de profundidade/paralaxe, ou imagem de olho esquerdo + informação de profundidade/paralaxe + informação residual de imagem de olho direito. A informação de profundidade/paralaxe é usada porque:
a informação de profundidade/paralaxe pode ser usada para a realização de uma codificação e uma decodificação efetivas das imagens de vídeo 3D; e
a informação de profundidade/paralaxe pode ser usada para a reconstrução de outros pontos de vista virtuais de forma efetiva (especificamente, pontos de vista em que nenhuma câmera física é colocada).
a informação de profundidade/paralaxe pode ser usada para a realização de uma codificação e uma decodificação efetivas das imagens de vídeo 3D; e
a informação de profundidade/paralaxe pode ser usada para a reconstrução de outros pontos de vista virtuais de forma efetiva (especificamente, pontos de vista em que nenhuma câmera física é colocada).
[00026] Em uma modalidade da presente invenção, o terminal de comunicação de vídeo 3D pode sintetizar a informação de vídeo de todas as entidades de sessão.
[00027] Em um sistema de terminal de comunicação de vídeo 3D em uma modalidade da presente invenção, o terminal de comunicação de vídeo pode sintetizar a informação de vídeo de múltiplas entidades de sessão de acordo com o modo de exibição selecionado pelo usuário ou o modo de exibição pré-definido. Há três modos de exibição:
[00028] Modo 1: o terminal exibe múltiplas entidades de sessão simultaneamente em modos diferentes, especificamente, exibe a entidade de sessão atualmente interagindo com o terminal em um modo de exibição 3D e exibe outras entidades de sessão em um modo de exibição 2D.
[00029] Conforme mostrado na FIG. 4, de acordo com o modo 1, a cena da entidade de sessão atualmente interagindo com o terminal é exibida de uma forma 3D (a janela de entidade de sessão no lado esquerdo superior da tela), e as outras entidades de sessão atuais (às quais o tem presta menos atenção) são exibidas em um modo 2D. No modo 1, o usuário do terminal percebe a cena como se o usuário estivesse no foco.
[00030] Nesta modalidade, o terminal precisa detectar todas as entidades de sessão para confirmar a entidade de sessão atual. A entidade atual pode ser uma entidade de sessão atualmente falando com o usuário do terminal, ou uma entidade de sessão especificada pelo usuário de terminal. Além disso, quando a entidade de sessão atual do usuário de terminal muda, é necessário trocar o modo de exibição das entidades de sessão em tempo real, especificamente, o terminal precisa determinar o modo de exibição de todas as entidades de sessão uma a uma. Por brevidade de descrição, esta modalidade toma uma entidade de sessão do terminal como um exemplo para a descrição de como o terminal confirma o modo de exibição da entidade de sessão.
[00031] Conforme mostrado na FIG. 5, o método para o terminal sintetizar uma informação de vídeo de todas as entidades de sessão nesta modalidade inclui as etapas a seguir:
[00032] Etapa 501: detectar a informação de estado da entidade de sessão cujo modo de exibição precisa ser determinado, e detectar as capacidades de exibição do terminal.
[00033] Nesta etapa, a informação de estado da entidade de sessão pode incluir uma informação indicando se a entidade de sessão está falando com o terminal, e as câmaras de exibição do terminal incluem uma informação indicando se o terminal suporta o modo de exibição 3D.
[00034] Etapa 502: julgar se a entidade de sessão é a entidade de sessão atual, e se o terminal suporta o modo de exibição 3D. Se esse for o caso, realizar a etapa 503; caso contrário, realizar a etapa 505.
[00035] Nesta etapa, os critérios para julgar a entidade de sessão podem ser pré-regulados de acordo com as condições reais. Por exemplo, o terminal pode tomar a entidade de sessão atualmente falando com o terminal como a entidade de sessão atual de acordo com a informação de estado, ou especificar uma entidade de sessão como a entidade de sessão atual. Se o usuário de terminal especificar uma entidade de sessão como a entidade de sessão atual, a ação de detecção da informação de estado na etapa 501 pode ser omitida.
[00036] Além disso, nesta etapa, é necessário julgar se o terminal suporta o modo de exibição 3D de acordo com as capacidades de exibição do terminal.
[00037] Etapa 503: sintetizar a informação de vídeo 3D a ser exibida.
[00038] Nesta etapa, pelo uso da informação de vídeo 3D (por exemplo, imagem de olho esquerdo + imagem de profundidade/paralaxe) transmitida a partir da entidade de sessão, imagens de ponto de vista múltiplo (por exemplo, imagem de olho esquerdo e imagem de olho direito) adequadas para a posição de assistência do usuário de terminal são obtidas, ou pelo menos uma imagem de ponto de vista e um mapa de profundidade/paralaxe é obtido, e a apresentação de imagem 3D é realizada para a sintetização da informação de visão 3D para exibição.
[00039] Etapa 504: exibição da informação de vídeo 3D na janela de entidade de sessão precedente. O processo termina.
[00040] Etapa 505: sintetizar a informação de vídeo 2D.
[00041] Nesta etapa, a entidade de sessão precedente é exibida através de imagens de vídeo 2D. Portanto, é necessário apenas selecionar uma imagem de vídeo 2D (por exemplo, a imagem de olho esquerdo ou a imagem de olho direito) ou sintetizar uma imagem de vídeo 2D (por exemplo, uma imagem de ponto de vista médio sintetizada pelo uso da imagem de olho esquerdo e da imagem de olho direito) para apresentação, e a informação de vídeo 2D é gerada.
[00042] Etapa 506: exibição da informação de vídeo 2D na janela de entidade de sessão precedente. O processo termina.
[00043] O terminal realiza o processamento precedente para cada entidade de sessão, confirma o modo de exibição de cada entidade de sessão, de modo que apenas a entidade de sessão atual seja exibida no modo 3D, e as outras entidades de sessão não atuais são exibidas no modo 2D.
[00044] Além disso, nesta modalidade, o usuário de terminal pode selecionar uma entidade de sessão diretamente, e trocar o modo de exibição de entidade múltipla para o modo de exibição de sessão única (por exemplo, um modo de exibição de tela cheia). Como resultado, a entidade de sessão selecionada é exibida no modo 3D ou 2D automaticamente, e as outras entidades de sessão não são exibidas. Neste caso, a entidade de sessão selecionada pode ser a entidade de sessão atual ou não.
[00045] Nesta modalidade, o modo 1 pode suportar dois modos de exibição:
[00046] Neste modo de exibição, uma exibição estereoscópica única exibe múltiplas entidades de sessão através de múltiplas janelas. Neste modo de exibição, cada janela corresponde de forma única a uma entidade de sessão. A entidade de sessão atual pode ser exibida através de uma janela de vídeo 3D (especificamente, uma janela para exibição de imagens de vídeo 3D), e as outras entidades de sessão podem ser exibidas através de uma janela de vídeo 2D (especificamente, uma janela para exibição de imagens de vídeo 2D). Atualmente, muitas exibições estereoscópicas suportam uma troca flexível entre o modo de exibição 2D e o modo de exibição 3D, por exemplo, a exibição estereoscópica baseada em sequência de quadro, especificamente, a exibição estereoscópica emprega o armazenamento temporário de imagem de imagem de olho esquerdo e imagem de olho direito para implementação da exibição estereoscópica. Além disso, a imagem estereoscópica da biblioteca gráfica aberta (OpenGL) também suporta uma exibição das imagens de vídeo 3D em uma janela e uma exibição de imagens de vídeo 2D em outras janelas.
[00047] No modo de exibição, múltiplas exibições são usadas para a exibição de múltiplas entidades de sessão, e cada entidade de sessão corresponde de forma única a uma exibição. Em um modo de exibição como esse, a exibição correspondente à entidade de sessão atual exibe as imagens de vídeo 3D, e as exibições correspondentes às outras imagens de vídeo 2D de exibição de entidades de sessão.
[00048] Modo 2: o terminal exibe múltiplas entidades de sessão simultaneamente no modo de exibição de entidade múltipla, e o usuário de terminal seleciona o modo de exibição de cada entidade de sessão.
[00049] Conforme mostrado na FIG. 6, no modo 2, o usuário de terminal pode selecionar o modo de exibição de cada entidade de sessão de acordo com as condições de aplicação reais. Isto é, o usuário de terminal pode especificar o modo de exibição de cada entidade de sessão, e gravar o modo de exibição especificado de cada entidade de sessão na informação de estado da entidade de sessão. Por exemplo, o usuário de terminal especifica o modo de exibição das entidades para as sessões 1 e 4 como sendo o modo de exibição 3D, e especifica o modo de exibição das pares para as sessões 2 e 3 como sendo o modo de exibição 2D. Neste caso, o terminal pode sintetizar a informação de vídeo de todas as entidades de sessão de acordo com o modo de exibição especificado na informação de estado de cada entidade de sessão. Isto é, o terminal pode sintetizar uma ou mais transmissões contínuas de vídeo simultaneamente para a obtenção e a exibição das imagens de vídeo 3D de uma ou mais entidades de sessão. Nesta modalidade, o terminal sintetiza a informação de vídeo de todas as entidades de sessão da forma similar às etapas 501 a 506 no modo 1 e difere apenas pelo fato de, no modo 2, as condições de julgamento na etapa 502 são mudadas para: julgar se o modo de exibição da entidade de sessão precedente é um modo de exibição 3D, ou mudadas para: julgar se a entidade de sessão precedente é uma entidade de sessão especificada.
[00050] Além disso, o usuário de terminal pode selecionar uma entidade de sessão e, então, trocar o modo de exibição de entidade múltipla para o modo de exibição de sessão única para exibição da entidade de sessão selecionada (especificamente, a exibição da entidade de sessão selecionada sozinha, sem exibição de outras entidades de sessão). O modo de exibição de sessão única pode ser um modo de exibição 3D ou 2D. Como o modo 1, o modo 2 suporta o modo de exibição que envolve uma exibição estereoscópica única e o modo de exibição que envolve múltiplas exibições. Além disso, quando da sintetização das imagens de vídeo 3D, o modo 2 controla as paralaxes das imagens 3D de cada entidade de sessão, assim se evitando uma interferência entre as imagens 3D exibidas e melhorando a experiência do usuário.
[00051] Modo 3: o terminal exibe múltiplas entidades de sessão simultaneamente no modo de exibição de entidade múltipla. Todas as entidades de sessão são exibidas no modo de exibição 2D, uma entidade de sessão pode ser selecionada para mudança do modo de exibição de entidade múltipla para o modo de exibição de sessão única (por exemplo, o modo de tela cheia), e a entidade de sessão selecionada é exibida no modo de exibição 3D.
[00052] Conforme mostrado na FIG. 7, no modo 3, para os dispositivos que não suportam simultaneamente a exibição das imagens 2D e das imagens 3D, mas suportam um modo de exibição de sessão única (tais como óculos estereoscópicos), as ilustrações de entidade múltipla são exibidas no modo de exibição 2D. Após o usuário de terminal selecionar uma entidade de sessão (por exemplo, a entidade de sessão 1), a informação indicando que a entidade de sessão serve como uma entidade de sessão selecionada é gravada na informação de estado da entidade de sessão selecionada, e o terminal pode trocar a entidade de sessão selecionada para o modo de exibição de sessão única de tela cheia, de acordo com a informação de estado da entidade de sessão selecionada no modo de exibição 3D. Além disso, no modo 3, quando a entidade de sessão selecionada é exibida no modo de exibição de sessão única, o terminal precisa sintetizar a informação de vídeo 3D para exibição de acordo com a informação de vídeo da entidade de sessão selecionada. Quando se muda de volta para a exibição de ilustração múltipla, o terminal precisa sintetizar a informação de vídeo 2D para exibição de acordo com a informação de vídeo da entidade de sessão selecionada. O método do terminal sintetizando a informação de vídeo de todas as entidades de sessão é o mesmo que o método de sintetização no modo 2, e não é repetido aqui adicionalmente.
[00053] Através do método para comunicação de vídeo 3D provido nesta modalidade, o terminal capaz de exibir imagens 3D recebe uma informação de vídeo de pelo menos duas entidades de sessão, e exibe a informação de vídeo recebida a partir de cada entidade de sessão em uma forma 3D ou 2D, assim implementando uma comunicação de vídeo 3D de entidade múltipla ou uma comunicação de vídeo de entidade múltipla híbrida 2D/3D. Portanto, o usuário pode realizar uma comunicação de vídeo 3D com múltiplas entidades de sessão simultaneamente, e obter uma experiência melhor na comunicação de vídeo 3D.
[00054] Em uma modalidade da presente invenção, uma MCU pode sintetizar a informação de vídeo de todas as entidades de sessão.
[00055] Nos três modos de exibição nas modalidades precedentes, o terminal de comunicação de vídeo 3D sintetiza as ilustrações de vídeo de múltiplas entidades de sessão, e, então, processa o modo de exibição das entidades de sessão. Na modalidade a seguir, uma MCU capaz de processar sessões de vídeo 3D e sintetizar imagens 3D é usada para a sintetização de ilustrações de vídeo de entidade múltipla e, então, enviar as transmissões contínuas de vídeo sintetizado para o terminal de comunicação de vídeo para exibição.
[00056] Conforme mostrado na FIG. 8, nesta modalidade, a rede de comunicação inclui os terminais Α, Β e C capazes de comunicação de par a par, e inclui os terminais D, E e F incapazes de comunicação de par a par. Portanto, a MCU capaz de processar sessões de vídeo 3D e a sintetização de imagens 3D pode ser usada para a implementação da conferência de ponto múltiplo, por exemplo, o terminal A realiza uma conferência de ponto múltiplo com os terminais D, E e F.
[00057] Conforme mostrado na FIG. 9, o método para a MCU implementar a comunicação de vídeo 3D nesta modalidade inclui as etapas a seguir:
[00058] Etapa 901: obtenção das capacidades de exibição do terminal de comunicação e do modo de exibição de cada entidade de sessão.
[00059] Nesta etapa, a MCU precisa obter as capacidades de exibição de cada terminal de comunicação através de um protocolo de comunicação de vídeo, e obter o modo de exibição de cada entidade de sessão de acordo com a informação de estado de cada entidade de sessão. As capacidades de exibição do terminal de comunicação incluem: se o terminal de comunicação é capaz de capturar vídeos 3D, se o terminal de comunicação suporta o modo de exibição 3D, e se o modo de exibição de todas as entidades de sessão é o modo de exibição de entidade múltipla. A informação de estado de entidade de sessão pode incluir uma informação indicando se a entidade de sessão é a entidade de sessão atual, uma entidade de sessão especificada ou uma entidade de sessão selecionada. O modo de exibição de cada entidade de sessão pode ser obtido de acordo com essa informação.
[00060] Etapa 902: julgar se o terminal suporta o modo de exibição 3D. Se o terminal suportar o modo de exibição 3D, realizar a etapa 904; caso contrário, realizar a etapa 903.
[00061] Etapa 903: sintetizar as transmissões contínuas de vídeo 2D das múltiplas entidades de sessão, e realizar a etapa 907.
[00062] Nesta etapa, devido ao fato de o terminal não suportar o modo de exibição 3D, a MCU sintetiza a informação de vídeo de múltiplas entidades de sessão a serem exibidas pelo terminal atual em transmissões contínuas de vídeo 2D de múltiplas entidades de sessão.
[00063] Etapa 904: julgar se o modo de exibição de todas as entidades de sessão é o modo de exibição 3D. Se o modo de exibição de todas as entidades de sessão for o modo de exibição 3D, realizar a etapa 905; caso contrário, realizar a etapa 906.
[00064] Etapa 905: sintetizar as transmissões contínuas de vídeo 3D das múltiplas entidades de sessão, e realizar a etapa 907.
[00065] Nesta etapa, a MCU sintetiza as transmissões contínuas de vídeo 3D de múltiplas entidades de sessão de acordo com a informação de vídeo de todas as entidades de sessão. Por exemplo, as imagens de olho esquerdo de todas as entidades de sessão são sintetizadas em um quadro de imagem de olho esquerdo, as imagens de profundidade/paralaxe de todas as entidades de sessão são sintetizadas em um quadro de imagens de profundidade/paralaxe, e o quadro da imagem de olho esquerdo e o quadro da imagem de profundidade/paralaxe são sintetizados na transmissão contínua de vídeo 3D de múltiplas entidades de sessão.
[00066] Etapa 906: sintetizar as transmissões contínuas de vídeo 2D e 3D de múltiplas entidades de sessão.
[00067] Nesta etapa, a MCU sintetiza as transmissões contínuas de vídeo 2D e 3D de múltiplas entidades de sessão de acordo com as capacidades de exibição e o modo de exibição do terminal, bem como o modo de exibição de cada entidade de sessão. Por exemplo, a MCU sintetiza as imagens de olho esquerdo de todas as entidades de sessão em um quadro de imagem de olho esquerdo, sintetiza as imagens de profundidade/paralaxe da entidade de sessão selecionada (por exemplo, a entidade de sessão atual a qual precisa ser exibida no modo de exibição 3D, ou a entidade de sessão especificada pelo usuário de terminal, ou a entidade de sessão selecionada pelo usuário de terminal) em um quadro de imagem de profundidade/paralaxe, sintetiza o quadro da imagem de olho esquerdo e o quadro de imagem de profundidade/disparidade nas transmissões contínuas de vídeo 3D de múltiplas entidades de sessão, e sintetiza a informação de vídeo de todas as entidades de sessão não selecionadas (por exemplo, a informação de vídeo 2D ou a imagem de olho esquerdo) em transmissões contínuas de vídeo 2D de múltiplas entidades de sessão.
[00068] Etapa 907: enviar as transmissões contínuas de vídeo sintetizadas para o terminal, respectivamente.
[00069] Após a etapa 907, o terminal sintetiza as transmissões contínuas de vídeo de todas as entidades de sessão para exibição de acordo com as transmissões contínuas de vídeo sintetizadas recebidas a partir da MCU.
[00070] Especificamente, o terminal sintetiza as transmissões contínuas de vídeo de todas as entidades de sessão para exibição de acordo com as transmissões contínuas de vídeo sintetizadas recebidas. Por exemplo, quando as transmissões contínuas de vídeo sintetizadas recebidas pelo terminal são transmissões contínuas de vídeo 2D sintetizadas, o terminal divide as transmissões contínuas de vídeo 2D sintetizadas e sintetiza a informação de vídeo 2D de cada entidade de sessão para exibição; quando as transmissões contínuas de vídeo sintetizadas recebidas pelo terminal são transmissões contínuas de vídeo 2D/3D sintetizadas, o terminal divide as transmissões contínuas de vídeo 2D/3D sintetizadas e sintetiza a informação de vídeo 2D de entidades de sessão diferentes para exibição, ou sintetiza a informação de vídeo 3D para ser exibida no modo 3D (por exemplo, combinando uma imagem de olho esquerdo nas transmissões contínuas de vídeo sintetizadas com o mapa de profundidade/paralaxe correspondente à imagem de olho esquerdo em uma imagem de olho direito correspondente à imagem de olho esquerdo e formando a informação de vídeo 3D) e exibe a informação; quando as transmissões contínuas de vídeo sintetizadas recebidas pelo terminal são transmissões contínuas de vídeo 3D sintetizadas, o terminal divide as transmissões contínuas de vídeo 3D sintetizadas e sintetiza a informação de vídeo 3D de cada entidade de sessão para exibição (por exemplo, combinando uma imagem de olho esquerdo na informação de imagem sintetizada com o mapa de profundidade/paralaxe correspondente à imagem de olho esquerdo em uma imagem de olho direito correspondente à imagem de olho esquerdo e formando a informação de vídeo 3D) e exibe a informação.
[00071] Através do método para comunicação de vídeo 3D provido nas modalidades da presente invenção, o terminal capaz de exibir as imagens 3D recebe uma informação de vídeo de pelo menos duas entidades de sessão, e exibe a informação de vídeo recebida a partir de cada entidade de sessão de uma forma 3D ou 2D, assim implementando a comunicação de vídeo 3D de entidade múltipla ou uma comunicação de vídeo de entidade múltipla híbrida de 2D/3D. Portanto, o usuário pode realizar uma comunicação de vídeo 3D com múltiplas entidades de sessão simultaneamente, e obter uma melhor experiência na comunicação de vídeo 3D.
[00072] É compreensível para aqueles versados na técnica que todas ou parte das etapas das modalidades de método precedentes podem ser implementadas por um hardware instruído por um programa. O programa pode ser armazenado em um meio de armazenamento que pode ser lido em computador. Quando é executado, o programa realiza as etapas das modalidades de método precedentes. O meio de armazenamento pode ser qualquer meio adequando para o armazenamento de códigos de programa, por exemplo, uma memória apenas de leitura (ROM), uma memória de acesso randômico (RAM), um disco magnético ou um disco compacto.
[00073] Conforme mostrado na FIG. 10, o sistema de comunicação de vídeo 3D em uma modalidade da presente invenção inclui pelo menos dois terminais de comunicação de vídeo, onde pelo menos um terminal de comunicação de vídeo é uma informação de vídeo capaz de exibir uma informação de vídeo 3D. A FIG. 10 mostra dois terminais de comunicação de vídeo capazes de exibirem uma informação de vídeo 3D.
[00074] O sistema em uma modalidade da presente invenção inclui:
uma MCU, configurada para: receber uma informação de vídeo de pelo menos duas entidades de sessão, onde a informação de vídeo de pelo menos uma entidade de sessão é uma informação de vídeo 3D; processar a informação de vídeo recebida a partir de pelo menos duas entidades de sessão de acordo com a informação de estado de pelo menos duas entidades de sessão e as capacidades de exibição de um terminal, e obter a informação de vídeo processada; e
um terminal de comunicação de vídeo, configurada para a obtenção e a exibição da informação de vídeo processada.
uma MCU, configurada para: receber uma informação de vídeo de pelo menos duas entidades de sessão, onde a informação de vídeo de pelo menos uma entidade de sessão é uma informação de vídeo 3D; processar a informação de vídeo recebida a partir de pelo menos duas entidades de sessão de acordo com a informação de estado de pelo menos duas entidades de sessão e as capacidades de exibição de um terminal, e obter a informação de vídeo processada; e
um terminal de comunicação de vídeo, configurada para a obtenção e a exibição da informação de vídeo processada.
[00075] Neste sistema, todos os terminais de comunicação de vídeo podem realizar comunicações de vídeo de entidade múltipla, e o terminal de comunicação de vídeo capaz de exibir uma informação de vídeo 3D pode receber uma informação de vídeo a partir de múltiplas entidades de sessão e exibir a informação de vídeo recebida de todas as entidades de sessão simultaneamente no modo 3D ou 2D.
[00076] A MCU no sistema é configurada para sintetizar a informação de vídeo de todas as entidades de sessão, e implementar uma comunicação de vídeo de entidade múltipla entre pelo menos dois terminais.
[00077] Conforme mostrado na FIG. 10, a MCU ainda inclui:
um módulo de recepção, configurado para obter uma informação de vídeo e uma informação de estado de pelo menos duas entidades de sessão, bem como capacidades de exibição de um terminal, onde a informação de vídeo de pelo menos uma entidade de sessão é uma informação de vídeo 3D; e
um módulo de processamento, configurado para processamento da informação de vídeo recebida a partir de pelo menos duas entidades de sessão de acordo com a informação de estado de pelo menos duas entidades de sessão e as capacidades de exibição do terminal.
um módulo de recepção, configurado para obter uma informação de vídeo e uma informação de estado de pelo menos duas entidades de sessão, bem como capacidades de exibição de um terminal, onde a informação de vídeo de pelo menos uma entidade de sessão é uma informação de vídeo 3D; e
um módulo de processamento, configurado para processamento da informação de vídeo recebida a partir de pelo menos duas entidades de sessão de acordo com a informação de estado de pelo menos duas entidades de sessão e as capacidades de exibição do terminal.
[00078] Conforme mostrado na FIG. 10, o módulo de processamento ainda pode incluir:
uma unidade de detecção, configurada para a detecção de um modo de exibição da entidade de sessão de acordo com a informação de estado obtida da entidade de sessão; e
uma unidade de sintetização, configurada para: a sintetização da informação de vídeo 3D da entidade de sessão de acordo com a informação de vídeo da entidade de sessão, se a unidade de detecção determinar que o modo de exibição da entidade de sessão é um modo de exibição 3D e as capacidades de exibição do terminal suportarem uma exibição 3D; e a sintetização de uma informação de vídeo bidimensional (2D) da entidade de sessão de acordo com a informação de vídeo da entidade de sessão, se a unidade de detecção determinar que o modo de exibição da entidade de sessão é um modo de exibição 2D.
uma unidade de detecção, configurada para a detecção de um modo de exibição da entidade de sessão de acordo com a informação de estado obtida da entidade de sessão; e
uma unidade de sintetização, configurada para: a sintetização da informação de vídeo 3D da entidade de sessão de acordo com a informação de vídeo da entidade de sessão, se a unidade de detecção determinar que o modo de exibição da entidade de sessão é um modo de exibição 3D e as capacidades de exibição do terminal suportarem uma exibição 3D; e a sintetização de uma informação de vídeo bidimensional (2D) da entidade de sessão de acordo com a informação de vídeo da entidade de sessão, se a unidade de detecção determinar que o modo de exibição da entidade de sessão é um modo de exibição 2D.
[00079] Opcionalmente, a unidade de detecção é configurada para a detecção do modo de exibição da entidade de sessão de acordo com a informação de estado obtida da entidade de sessão; a unidade de sintetização é configurada para: a sintetização das transmissões contínuas de vídeo 3D da entidade de sessão de acordo com a informação de vídeo da entidade de sessão, quando a unidade de detecção determinar que o modo de exibição da entidade de sessão é o modo de exibição 3D e as capacidades de exibição do terminal suportam a exibição 3D; e sintetizar as transmissões contínuas de vídeo 2D da entidade de sessão de acordo com a informação de vídeo da entidade de sessão, quando a unidade de detecção determinar que o modo de exibição da entidade de sessão é um modo de exibição 2D.
[00080] Além disso, em uma outra modalidade da presente invenção, o sistema de comunicação de vídeo 3D precedente não inclui a MCU precedente. Ao invés disso, o terminal de comunicação de vídeo 3D capaz de exibir uma informação de vídeo 3D sintetiza a informação de vídeo de todas as entidades de sessão.
[00081] Conforme mostrado na FIG. 11, o sistema de comunicação de vídeo 3D em uma modalidade da presente invenção inclui:
pelo menos duas entidades de sessão, configuradas para o envio de uma informação de vídeo para um terminal de comunicação por vídeo, onde a informação de vídeo de pelo menos uma entidade de sessão é uma informação de vídeo 3D; e
o terminal de comunicação de vídeo, configurado para: receber a informação de vídeo de pelo menos entidades de sessão, e o processo da informação de vídeo recebida a partir de pelo menos duas entidades de sessão de acordo com a informação de estado de pelo menos duas entidades de sessão e as capacidades de exibição do terminal.
pelo menos duas entidades de sessão, configuradas para o envio de uma informação de vídeo para um terminal de comunicação por vídeo, onde a informação de vídeo de pelo menos uma entidade de sessão é uma informação de vídeo 3D; e
o terminal de comunicação de vídeo, configurado para: receber a informação de vídeo de pelo menos entidades de sessão, e o processo da informação de vídeo recebida a partir de pelo menos duas entidades de sessão de acordo com a informação de estado de pelo menos duas entidades de sessão e as capacidades de exibição do terminal.
[00082] O terminal de comunicação de vídeo 3D na FIG. 11 ainda pode incluir:
um módulo de recepção, configurado para obter uma informação de vídeo e uma informação de estado de pelo menos duas entidades de sessão, bem como capacidades de exibição de um terminal, onde a informação de vídeo de pelo menos uma entidade de sessão é uma informação de vídeo 3D; e
um módulo de processamento, configurado para processamento da informação de vídeo recebida a partir de pelo menos duas entidades de sessão de acordo com a informação de estado de pelo menos duas entidades de sessão e as capacidades de exibição do terminal.
um módulo de recepção, configurado para obter uma informação de vídeo e uma informação de estado de pelo menos duas entidades de sessão, bem como capacidades de exibição de um terminal, onde a informação de vídeo de pelo menos uma entidade de sessão é uma informação de vídeo 3D; e
um módulo de processamento, configurado para processamento da informação de vídeo recebida a partir de pelo menos duas entidades de sessão de acordo com a informação de estado de pelo menos duas entidades de sessão e as capacidades de exibição do terminal.
[00083] O módulo de processamento ainda pode incluir:
uma unidade de detecção, configurada para a detecção de um modo de exibição da entidade de sessão de acordo com a informação de estado obtida da entidade de sessão; e
uma unidade de sintetização, configurada para: a sintetização da informação de vídeo 3D da entidade de sessão de acordo com a informação de vídeo da entidade de sessão, se a unidade de detecção determinar que o modo de exibição da entidade de sessão é um modo de exibição 3D e as capacidades de exibição do terminal suportarem uma exibição 3D; e a sintetização de uma informação de vídeo 2D da entidade de sessão de acordo com a informação de vídeo da entidade de sessão, se a unidade de detecção determinar que o modo de exibição da entidade de sessão é um modo de exibição 2D.
uma unidade de detecção, configurada para a detecção de um modo de exibição da entidade de sessão de acordo com a informação de estado obtida da entidade de sessão; e
uma unidade de sintetização, configurada para: a sintetização da informação de vídeo 3D da entidade de sessão de acordo com a informação de vídeo da entidade de sessão, se a unidade de detecção determinar que o modo de exibição da entidade de sessão é um modo de exibição 3D e as capacidades de exibição do terminal suportarem uma exibição 3D; e a sintetização de uma informação de vídeo 2D da entidade de sessão de acordo com a informação de vídeo da entidade de sessão, se a unidade de detecção determinar que o modo de exibição da entidade de sessão é um modo de exibição 2D.
[00084] Opcionalmente, conforme mostrado na FIG. 11, o módulo de processamento ainda pode incluir:
uma unidade de determinação, configurada para a determinação de uma entidade de sessão selecionada de acordo com uma instrução de seleção de um usuário; e
uma unidade de deslocamento, configurada para o deslocamento de um modo de exibição de entidade múltipla para um modo de exibição de sessão única e exibição da entidade de sessão selecionada determinada pela unidade de determinação no modo de exibição de sessão única, onde a entidade de sessão selecionada é exibida no modo de exibição 3D ou 2D.
uma unidade de determinação, configurada para a determinação de uma entidade de sessão selecionada de acordo com uma instrução de seleção de um usuário; e
uma unidade de deslocamento, configurada para o deslocamento de um modo de exibição de entidade múltipla para um modo de exibição de sessão única e exibição da entidade de sessão selecionada determinada pela unidade de determinação no modo de exibição de sessão única, onde a entidade de sessão selecionada é exibida no modo de exibição 3D ou 2D.
[00085] Opcionalmente, a unidade de detecção é configurada para a detecção do modo de exibição da entidade de sessão de acordo com a informação de estado obtida da entidade de sessão e detectar se a entidade de sessão é a entidade de sessão selecionada; e a unidade de sintetização é configurada para: a sintetização da informação de video 3D para exibição de acordo com a informação de video da entidade de sessão selecionada, se a unidade de detecção determinar que a entidade de sessão é a entidade de sessão selecionada, o modo de exibição da entidade de sessão é um modo de exibição 3D, e as capacidades de exibição do terminal suportarem um modo de exibição de sessão única; e a sintetização da informação de vídeo 2D a ser exibida para um usuário de acordo com a informação de vídeo de cada entidade de sessão, se a unidade de detecção determinar que a entidade de sessão não é a entidade de sessão selecionada ou o modo de exibição da entidade de sessão é um modo de exibição 2D. Em conclusão, através do método, do aparelho e do sistema providos nas modalidades da presente invenção, é conveniente implementar uma comunicação de vídeo 3D de entidade múltipla ou uma comunicação de vídeo de entidade múltipla híbrida de 2D/3D, e o usuário pode realizar uma comunicação de vídeo 3D com múltiplas entidades de sessão simultaneamente e desfrutar melhor da experiência de comunicação de vídeo 3D.
Claims (3)
- Método de comunicação por vídeo tridimensional (3D) para uso em um sistema de comunicação de vídeo de entidade múltipla, caracterizado pelo fato de que o sistema de comunicação de vídeo de entidade múltipla compreende uma unidade de controle de ponto múltiplo (MCU), pelo menos duas entidades de sessão, e um terminal correspondendo a uma entidade de sessão nas duas entidades de sessão, uma informação de estado de cada entidade sessão indica que o modo de exibição de cada entidade de sessão é modo de exibição 3D ou que os modos de exibição das entidades de sessão não são todos o modo de exibição 3D, as capacidades de exibição do terminal compreendem modo de exibição 2D ou modo de exibição 3D, e o método compreende as etapas de:
receber, pelo MCU, informação de vídeo das pelo menos duas entidades de sessão, em que a informação de vídeo da pelo menos uma entidade de sessão é uma informação de vídeo 3D; e
processar, pelo MCU, a informação de vídeo recebida a partir das pelo menos duas entidades de sessão de acordo com a informação de estado das pelo menos duas entidades de sessão e capacidades de exibição de um terminal,
em que a etapa de processar a informação de vídeo recebida a partir das pelo menos duas entidades de sessão de acordo com a informação de estado das pelo menos duas entidades de sessão e as capacidades de exibição do terminal compreende:
sintetizar (903), pelo MCU, transmissões contínuas de vídeo bidimensionais (2D) de cada entidade de sessão de acordo com a informação de vídeo de cada entidade de sessão se as capacidades de exibição do terminal não suportam exibição 3D;
sintetizar (905), pelo MCU, transmissões contínuas de vídeo 3D de cada entidade de sessão de acordo com a informação de vídeo de cada entidade de sessão se as capacidades de exibição do terminal suportam a exibição 3D e a informação de estado de cada entidade de sessão indica que um modo de exibição de cada entidade de sessão é um modo de exibição 3D;
sintetizar (906), pelo MCU, as transmissões contínuas de vídeo 2D e 3D de cada entidade de sessão de acordo com a informação de video de cada entidade de sessão e o modo de exibição de cada entidade de sessão se as capacidades de exibição do terminal suportam a exibição 3D e a informação de estado de cada entidade de sessão indica que os modos de exibição das entidades de sessão não são todas do modo de exibição 3D; e
enviar (907) as transmissões contínuas de vídeo sintetizadas para o terminal. - Método, de acordo com a reivindicação 1, caracterizado pelo fato de que a etapa de sintetizar (905) as transmissões contínuas de vídeo 3D de cada entidade de sessão de acordo com a informação de vídeo de cada entidade de sessão compreende:
sintetizar imagens de ponto de vista único de um mesmo tipo na informação de vídeo de todas as entidades de sessão em um quadro de uma imagem de ponto de vista único, sintetizar imagens de profundidade/paralaxe na informação de vídeo de todas as entidades de sessão em um quadro de imagem de profundidade/paralaxe, e sintetizar o quadro de uma imagem de ponto de vista único e o quadro de imagem de profundidade/paralaxe nas transmissões contínuas de vídeo 3D. - Método, de acordo com a reivindicação 1, caracterizado pelo fato de que a etapa de sintetizar (906) as transmissões contínuas de vídeo 2D e 3D de cada entidade de sessão de acordo com a informação de vídeo de cada entidade de sessão e o modo de exibição de cada entidade de sessão compreende:
sintetizar imagens de ponto de vista única de um mesmo tipo na informação de vídeo de todas as entidades de sessão em um quadro de imagem de ponto de vista único, sintetizar imagens de profundidade/paralaxe das entidades de sessão exibidas em um modo 3D em um quadro de imagem de profundidade/paralaxe, e sintetizar o quadro de imagem de ponto de vista único e o quadro de imagem de profundidade/paralaxe nas transmissões contínuas de vídeo 3D; e
sintetizar a informação de vídeo de todas as entidades de sessão exibidas em um modo 2D para as transmissões contínuas de vídeo de 2D.
Applications Claiming Priority (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN200810098355.3 | 2008-05-30 | ||
| CN2008100983553A CN101291415B (zh) | 2008-05-30 | 2008-05-30 | 一种三维视频通信的方法、装置及系统 |
| PCT/CN2009/071546 WO2009143735A1 (zh) | 2008-05-30 | 2009-04-29 | 三维视频通信的方法、装置及系统 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| BRPI0912307B1 true BRPI0912307B1 (pt) | 2020-11-24 |
Family
ID=40035459
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| BRPI0912307-5A BRPI0912307B1 (pt) | 2008-05-30 | 2009-04-29 | método de comunicação por vídeo tridimensional |
Country Status (5)
| Country | Link |
|---|---|
| US (2) | US8456505B2 (pt) |
| EP (1) | EP2290968B1 (pt) |
| CN (1) | CN101291415B (pt) |
| BR (1) | BRPI0912307B1 (pt) |
| WO (1) | WO2009143735A1 (pt) |
Families Citing this family (30)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN101291415B (zh) | 2008-05-30 | 2010-07-21 | 华为终端有限公司 | 一种三维视频通信的方法、装置及系统 |
| CN101677319A (zh) * | 2008-09-19 | 2010-03-24 | 华为技术有限公司 | 一种基于xmpp协议访问业务的方法、装置及系统 |
| JP5428697B2 (ja) * | 2009-09-16 | 2014-02-26 | ソニー株式会社 | 受信装置、受信方法、送信装置およびコンピュータプログラム |
| US20110149029A1 (en) * | 2009-12-17 | 2011-06-23 | Marcus Kellerman | Method and system for pulldown processing for 3d video |
| US20110157322A1 (en) * | 2009-12-31 | 2011-06-30 | Broadcom Corporation | Controlling a pixel array to support an adaptable light manipulator |
| US9247286B2 (en) | 2009-12-31 | 2016-01-26 | Broadcom Corporation | Frame formatting supporting mixed two and three dimensional video data communication |
| CN102195894B (zh) * | 2010-03-12 | 2015-11-25 | 腾讯科技(深圳)有限公司 | 即时通信中实现立体视频通信的系统及方法 |
| CN103098462A (zh) * | 2010-08-06 | 2013-05-08 | 松下电器产业株式会社 | 编码方法、显示装置以及解码方法 |
| JP5422538B2 (ja) * | 2010-11-09 | 2014-02-19 | 株式会社東芝 | 画像処理装置、表示装置、方法およびそのプログラム |
| WO2012091526A2 (ko) * | 2010-12-31 | 2012-07-05 | 한국전자통신연구원 | 카메라를 구비한 휴대용 영상 통화 장치 및 그 방법 |
| US20120206568A1 (en) * | 2011-02-10 | 2012-08-16 | Google Inc. | Computing device having multiple image capture devices and image modes |
| WO2013023345A1 (en) * | 2011-08-12 | 2013-02-21 | Motorola Mobility, Inc. | Method and apparatus for coding and transmitting 3d video sequences in a wireless communication system |
| JP5155462B2 (ja) | 2011-08-17 | 2013-03-06 | 株式会社スクウェア・エニックス・ホールディングス | 動画配信サーバ、動画再生装置、制御方法、プログラム、及び記録媒体 |
| CN103096014B (zh) * | 2011-10-28 | 2016-03-30 | 华为技术有限公司 | 一种视频呈现方法和系统 |
| CN102413306A (zh) * | 2011-11-21 | 2012-04-11 | 康佳集团股份有限公司 | 基于3d电视机的三维立体视频通话方法及3d电视机 |
| GB201201230D0 (en) * | 2012-01-25 | 2012-03-07 | Univ Delft Tech | Adaptive multi-dimensional data decomposition |
| KR20140133770A (ko) | 2012-02-23 | 2014-11-20 | 가부시키가이샤 스퀘어.에닉스.홀딩스 | 동화상 배신 서버, 동화상 재생 장치, 제어 방법, 및 컴퓨터 판독 가능한 기록 매체 |
| KR101536501B1 (ko) | 2012-04-12 | 2015-07-13 | 신라 테크놀로지스, 인크. | 동화상 배포 서버, 동화상 재생 장치, 제어 방법, 기록 매체, 및 동화상 배포 시스템 |
| EP2685732A1 (en) * | 2012-07-12 | 2014-01-15 | ESSILOR INTERNATIONAL (Compagnie Générale d'Optique) | Stereoscopic pictures generation |
| WO2014025293A2 (en) * | 2012-08-08 | 2014-02-13 | Telefonaktiebolaget L M Ericsson (Publ) | 3d video communications |
| CN103634563A (zh) * | 2012-08-24 | 2014-03-12 | 中兴通讯股份有限公司 | 视频会议显示方法及装置 |
| US9325936B2 (en) * | 2013-08-09 | 2016-04-26 | Samsung Electronics Co., Ltd. | Hybrid visual communication |
| CN104660576B (zh) * | 2013-11-25 | 2019-11-22 | 腾讯科技(深圳)有限公司 | 一种展现多个通信账号发送的媒体内容的方法及装置 |
| CN105872444B (zh) * | 2016-04-22 | 2019-11-29 | 广东小天才科技有限公司 | 一种视频通话方法、装置及系统 |
| CN108271084B (zh) * | 2016-12-30 | 2021-06-15 | 华为技术有限公司 | 一种信息的处理方法及装置 |
| WO2018120294A1 (zh) * | 2016-12-30 | 2018-07-05 | 华为技术有限公司 | 一种信息的处理方法及装置 |
| CN107707865B (zh) * | 2017-09-11 | 2024-02-23 | 深圳传音通讯有限公司 | 一种通话方式开启方法、终端及计算机可读存储介质 |
| CN107846566A (zh) * | 2017-10-31 | 2018-03-27 | 努比亚技术有限公司 | 一种信息处理方法、设备和计算机可读存储介质 |
| CN111526323B (zh) * | 2020-03-24 | 2023-05-23 | 视联动力信息技术股份有限公司 | 一种全景视频的处理方法和装置 |
| CN119071388A (zh) * | 2024-08-06 | 2024-12-03 | 中国移动通信有限公司研究院 | 视频彩铃协商方法、装置、相关设备、介质及程序产品 |
Family Cites Families (11)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH06113336A (ja) * | 1992-09-30 | 1994-04-22 | Fujitsu Ltd | 三次元多地点テレビ会議システム |
| JPH10224825A (ja) * | 1997-02-10 | 1998-08-21 | Canon Inc | 画像表示システム及び該システムにおける画像表示装置及び情報処理装置及びそれらの制御方法及び記憶媒体 |
| GB2336963A (en) * | 1998-05-02 | 1999-11-03 | Sharp Kk | Controller for three dimensional display and method of reducing crosstalk |
| JP4198054B2 (ja) * | 2001-08-15 | 2008-12-17 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 3dビデオ会議システム |
| JP3989348B2 (ja) * | 2002-09-27 | 2007-10-10 | 三洋電機株式会社 | 複数画像送信方法及び複数画像同時撮影機能付き携帯機器 |
| KR100490416B1 (ko) * | 2002-11-23 | 2005-05-17 | 삼성전자주식회사 | 2차원 영상 및 3차원 영상의 선택적 디스플레이 가능한 디스플레이장치 |
| EP1589758A1 (en) * | 2004-04-22 | 2005-10-26 | Alcatel | Video conference system and method |
| US20050259148A1 (en) * | 2004-05-14 | 2005-11-24 | Takashi Kubara | Three-dimensional image communication terminal |
| US7475112B2 (en) * | 2005-03-04 | 2009-01-06 | Microsoft Corporation | Method and system for presenting a video conference using a three-dimensional object |
| US8022977B2 (en) * | 2005-10-17 | 2011-09-20 | I2Ic Corporation | Camera placed behind a display with a transparent backlight |
| CN101291415B (zh) * | 2008-05-30 | 2010-07-21 | 华为终端有限公司 | 一种三维视频通信的方法、装置及系统 |
-
2008
- 2008-05-30 CN CN2008100983553A patent/CN101291415B/zh active Active
-
2009
- 2009-04-29 EP EP09753453.1A patent/EP2290968B1/en active Active
- 2009-04-29 BR BRPI0912307-5A patent/BRPI0912307B1/pt active IP Right Grant
- 2009-04-29 WO PCT/CN2009/071546 patent/WO2009143735A1/zh not_active Ceased
-
2010
- 2010-11-24 US US12/953,790 patent/US8456505B2/en active Active
-
2012
- 2012-09-28 US US13/630,110 patent/US8736659B2/en active Active
Also Published As
| Publication number | Publication date |
|---|---|
| EP2290968B1 (en) | 2015-03-18 |
| US20110069139A1 (en) | 2011-03-24 |
| EP2290968A4 (en) | 2011-08-17 |
| WO2009143735A1 (zh) | 2009-12-03 |
| US20130021429A1 (en) | 2013-01-24 |
| CN101291415B (zh) | 2010-07-21 |
| EP2290968A1 (en) | 2011-03-02 |
| US8456505B2 (en) | 2013-06-04 |
| CN101291415A (zh) | 2008-10-22 |
| US8736659B2 (en) | 2014-05-27 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| BRPI0912307B1 (pt) | método de comunicação por vídeo tridimensional | |
| US11037365B2 (en) | Method, apparatus, medium, terminal, and device for processing multi-angle free-perspective data | |
| US11368669B2 (en) | Generating stereoscopic light field panoramas using concentric viewing circles | |
| JP6173442B2 (ja) | 第1の映像信号と第2の映像信号を混合する方法および装置 | |
| WO2017030985A1 (en) | System and method for augmented reality multi-view telepresence | |
| CN102938796A (zh) | 一种手机 | |
| JP2009516447A (ja) | 3次元画像データを生成、転送および処理するための方法および装置 | |
| US11882267B2 (en) | Adapting video images for wearable devices | |
| US20190281319A1 (en) | Method and apparatus for rectified motion compensation for omnidirectional videos | |
| CN101610421A (zh) | 视频通讯方法、装置及系统 | |
| WO2005081057A1 (en) | Method and apparatus for providing a combined image | |
| CN113963094B (zh) | 深度图及视频处理、重建方法、装置、设备及存储介质 | |
| JP2014501086A (ja) | 立体画像取得システム及び方法 | |
| CN115423916A (zh) | 基于xr技术的沉浸式互动直播构建方法、系统及介质 | |
| CN116860112B (zh) | 一种基于xr技术的组合场景体验生成方法、系统及介质 | |
| CN113891063A (zh) | 一种全息展示方法及装置 | |
| CN103051866A (zh) | 网络3d 视频监控系统、方法和视频处理平台 | |
| US20230115563A1 (en) | Method for a telepresence system | |
| CN121125963A (zh) | 一种视频处理方法、装置、设备及存储介质 | |
| Canessa et al. | MORPHOLO C++ Library for glasses-free multi-view stereo vision and streaming of live 3D video | |
| Strintzis et al. | Review of methods for object-based coding of stereoscopic and 3D image sequences | |
| Robitza | 3d vision: Technologies and applications |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| B06F | Objections, documents and/or translations needed after an examination request according [chapter 6.6 patent gazette] | ||
| B25D | Requested change of name of applicant approved |
Owner name: HUAWEI DEVICE (SHENZHEN) CO., LTD. (CN) |
|
| B06U | Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette] | ||
| B15K | Others concerning applications: alteration of classification |
Free format text: A CLASSIFICACAO ANTERIOR ERA: H04N 7/14 Ipc: H04N 7/14 (1968.09), H04N 7/15 (1990.01), H04N 13/ |
|
| B09A | Decision: intention to grant [chapter 9.1 patent gazette] | ||
| B16A | Patent or certificate of addition of invention granted [chapter 16.1 patent gazette] |
Free format text: PRAZO DE VALIDADE: 10 (DEZ) ANOS CONTADOS A PARTIR DE 24/11/2020, OBSERVADAS AS CONDICOES LEGAIS. |
|
| B25A | Requested transfer of rights approved |
Owner name: HUAWEI TECHNOLOGIES CO., LTD. (CN) |



