ES2336216T3

ES2336216T3 - Compositor de medios distribuidos a tiempo real.

Info

Publication number: ES2336216T3
Application number: ES04800192T
Authority: ES
Inventors: Tom-Ivar Johansen; Geir Arne Sandbakken
Original assignee: Tandberg Telecom AS
Current assignee: Tandberg Telecom AS
Priority date: 2003-11-14
Filing date: 2004-11-15
Publication date: 2010-04-09
Anticipated expiration: 2024-11-15
Also published as: NO318911B1; US20130038677A1; EP1683356B1; CN1883197A; US20140354766A1; US7561179B2; JP2007511954A; EP1683356A1; US8289369B2; NO20035078D0; CN100568948C; US8773497B2; US9462228B2; DE602004025131D1; ATE455436T1; WO2005048600A1; US20100033550A1; US20050122392A1

Abstract

Sistema que permite el intercambio simultáneo de informaciones de audio, video y/o datos entre una pluralidad de puntos extremos en una red de comunicaciones y soportado por una unidad central, la pluralidad de puntos extremos comprendiendo puntos extremos transmisores y puntos extremos receptores, en el que el sistema está adaptado para el intercambio bidireccional de flujos multimedia entre la unidad central y la pluralidad de puntos extremos, el sistema está adaptado para componer flujos multimedia comprendiendo tramas parciales, y la unidad central está, basándose en la información de capacidad recibida desde uno o más de los puntos extremos, adaptada para dar instrucciones a dicho uno o más puntos extremos transmisores para generar flujos multimedia que comprenden tramas parciales ajustadas para corresponderse con las capacidades de los puntos extremos receptores que participan en una sesión.

Description

Compositor de medios distribuidos a tiempo real.

Campo de la invención

La presente invención se refiere a sistemas que permiten el intercambio simultáneo de información de audio, video y datos mediante el uso de telecomunicaciones, en particular se refiere a sistemas de videoconferencia y conferencia en línea.

Antecedentes de la invención

En particular, la invención describe un sistema y un procedimiento que permiten el intercambio simultáneo de información de audio, video y datos entre una pluralidad de unidades, utilizando una red de telecomunicaciones existente.

Existen un número de sistemas tecnológicos disponibles para organizar encuentros entre participantes ubicados en zonas diferentes. Estos sistemas pueden incluir conferencias o videoconferencias audiovisuales multipunto, conferencias en línea y audioconferencias.

El substituto más realista de los encuentros reales son los sistemas de videoconferencia de gama alta. Los sistemas de videoconferencia convencionales incluyen un número de puntos extremos que comunican flujos de video, audio y/o datos a tiempo real por y entre varias redes como WAN, LAN y redes con conmutación de circuitos. Los puntos extremos incluyen una o más pantalla(s), cámara(s), micrófono(s) y/o dispositivo(s) de captura de datos y un códec. Dichos códecs codifican y decodifican los flujos de salida y entrante, respectivamente.

Las conferencias multimedia pueden estar divididas en tres categorías principales: conferencias centralizadas, descentralizadas e híbridas, en las que cada categoría tiene una pluralidad de variaciones para ejecutar una conferencia.

Conferencia centralizada

Las conferencias multipunto audiovisuales tradicionales tienen una Unidad de Control Multipunto (MCU) con tres o más puntos extremos conectados. Estas MCUs realizan funciones de conmutación para permitir que los terminales audiovisuales se intercomuniquen en una conferencia. La función central de una MCU es enlazar múltiples sitios de video teleconferencia (EP- puntos extremos) y también recibir tramas de señales digitales procedentes de terminales audiovisuales (EP), procesar las señales recibidas, y retransmitir las señales procesadas a las terminales audiovisuales apropiadas (EP) como tramas de señales digitales. Las señales digitales pueden incluir informaciones de audio, video, datos y control. Las señales de video procedentes de dos o más terminales audiovisuales (EP) pueden mezclarse espacialmente para formar una señal de video compuesta para ver los participantes de la teleconferencia. La MCU actúa como un encaminador selectivo de flujos de medios en este escenario. Una parte de la MCU llamada el Controlador Multipunto (MC) controla la conferencia. Cada punto extremo tiene un canal de control para enviar y recibir señales de control a y desde el MC. El Mc actúa y envía comandos a los puntos extremos.

Flujo único de conmutación de voz

En una conferencia centralizada, la MCU recibirá flujos de video entrantes desde todos los participantes. Puede retransmitir un flujo de video desde un punto extremo a todos los otros puntos extremos. El flujo de punto extremo se selecciona típicamente por la solución de un solo flujo de voz conmutado, basado en el participante habla más alto, es decir, el hablante. El flujo se llama Vista Actual. Mientras que la Vista Anterior es el flujo de video procedente del participante en el punto extremo que era el hablante antes del hablante actual. En una conferencia por conmutación de voz, se envía un flujo de vídeo de Vista Actual a todos excepto al hablante actual, y la Vista Anterior se envía al hablante actual. Un problema para la MCU es asegurar que todos los puntos extremos de la conferencia puedan recibir la Vista Actual y la Vista Anterior.

Flujo único de conmutación por otros medios

La Vista Actual también puede controlarse enviando comandos entre la MCU y los puntos extremos. Un mecanismo así se llama control del turno de palabra. Un punto extremo puede enviar un comando de solicitud de turno de palabra a la MCU para que se envíe su vídeo a todos los otros participantes. La Vista Anterior será típicamente una vista de conmutación de voz entre el resto de participantes en la conferencia. La Vista Actual puede emitirse enviando un comando de emisión de turno de palabra. Existen otros procedimientos conocidos para controlar la Vista Actual, así como, entre otros, el control del turno de palabra y el control de coordinación. Ambos tratan con flujos únicos de conmutación, sin embargo, proporcionar una descripción completa de cada solución conocida sobre este asunto está fuera del ámbito de este documento. Sin embargo, el principio con una vista actual y la conmutación de un flujo único es el mismo.

Presencia continua

En una conferencia, a menudo se verá más de un participante. Esto se logra de varias formas. La MCU puede combinar los flujos de video entrante para hacer que uno o más flujos de vídeo de salida lo logren. La combinación de varios flujos de video de baja resolución entrante desde los puntos extremos a un flujo de resolución alta puede hacerlo. El flujo de resolución alta se envía a continuación desde la MCU a todos o algunos de los puntos extremos en la conferencia. El flujo se llama Vista Combinada. La característica de los flujos de resolución baja limita el formato del flujo de resolución alta procedente de la MCU. Se necesitan limitaciones estrictas en los flujos de resolución baja entrante para asegurar que todos los puntos extremos que lo reciben pueden recibir el flujo de resolución alta combinado. La MCU debe, siempre que cada receptor reciba el mismo flujo multimedia, encontrar el "modo menos común" para asegurar una característica de visión y audio aceptable en el receptor con la peor capacidad. Debido a las diversas variaciones de pantallas, la MCU también debe compensar las diferentes pantallas como la vista 4:3 16:9; esto no es posible con un modo común. Esta solución de modo menos común no funciona particularmente bien y proporciona importantes limitaciones a los receptores que tienen una capacidad que sobrepasa aquella con la peor capacidad.

Vista redimensionada

Una solución más flexible es dejar que la MCU redimensione todos los flujos de video entrantes y hacer así una vista que pueda recibirse en todos los puntos extremos que la reciben. Para realizar el redimensionamiento, la MCU necesita decodificar todos los flujos de video entrantes. Los datos decodificados -datos brutos- se redimensionan y se transforman a continuación. Los diferentes flujos de datos brutos se combinan en un diseño compuesto y se juntan en un diseño establecido dado, se hacen a la medida de los requisitos del receptor para la velocidad de bits y el estándar de codificación. El flujo combinado de datos brutos se codifica a continuación y se tendrá un nuevo flujo de video que contiene uno o más flujos entrantes. La solución se llama Vista Redimensionada. Para hacer una vista redimensionada, la MCU debe comprender y tener la capacidad de codificar y decodificar flujos de video. Cuantos más puntos extremos haya en la conferencia, más capacidad necesitará la MCU para decodificar todos los flujos entrantes. La manipulación de datos pesados realizada por la MCU añadirá un retraso adicional a los flujos multimedia y reducirá por tanto la calidad de la conferencia multimedia. Cuanto mayor sea el número de puntos extremos, más durará será la manipulación de datos. La escalabilidad es un asunto en una solución como esta. El diseño puede ser diferente en todos los decodificadores para evitar que el usuario final se vea en el video con retraso en la pantalla. Según el número de diseños diferentes, deben codificarse diferentes flujos de salida. Una MCU puede diferenciar entre los propios puntos extremos o mediante grupos de puntos extremos, ejemplificados en dos grupos, uno para una velocidad de bits baja que proporciona una primera vista y uno para velocidades de bits altas que da una segunda vista.

Conferencia descentralizada

En un escenario multipunto descentralizado, se necesita un MC centralizado. Cada punto extremo enviará sus datos de medio al resto de puntos extremos - típicamente mediante multidifusión. Cada punto extremo mezclará el audio procedente del resto de puntos extremos, y combinará o seleccionará los flujos de video para mostrarlos localmente. El MC todavía actúa como controlador para la conferencia, y cada punto extremo tendrá una conexión de control con el MC. En una conferencia descentralizada, cada punto extremo debe tener la funcionalidad de la MCU mostrando funcionalmente una Vista Actual/Anterior, una Vista Combinada o una Vista Redimensionada. La complejidad de un punto extremo que soporta conferencias descentralizadas es mayor que la de los puntos extremos que soportan conferencias centralizadas.

Conferencia Híbrida

Una conferencia híbrida utiliza una combinación de conferencia centralizada y descentralizada. Algunos puntos extremos estarán en una conferencia centralizada, y otros estarán en una descentralizada. Una conferencia híbrida puede tener un tratamiento centralizado de un flujo de medios, y una distribución descentralizada de otro. Antes del inicio de la conferencia multimedia, la MCU centralizada enviará comandos a cada punto extremo que participa en la conferencia, estos comandos, entre otros, pedirán al punto extremo que informe a la MCU de sus capacidades de velocidad de bits y su capacidad de procesamiento de códecs. La información recibida será utilizada por la MCU centralizada para establecer una conferencia híbrida multimedia, en la que se tiene en cuenta la característica de cada punto extremo.

El término híbrido también se utiliza cuando el audio se mezcla en la MCU y cada punto extremo selecciona y decodifica uno o más flujos de video entrantes para la vista local.

Compresión de señal escalable

Los algoritmos de compresión de señal escalables son un requisito principal de la red global que evoluciona rápidamente, que implican una variedad de canales con capacidades que difieren ampliamente entre sí. Muchas aplicaciones requieren que los datos puedan decidirse simultáneamente en una variedad de velocidades. Algunos ejemplos incluyen aplicaciones como la multidifusión en una red heterogénea, donde los canales dictan las velocidades de bits factibles para cada usuario. De forma similar, está motivado por la coexistencia de puntos extremos de complejidad y costes diferentes. Una técnica de compresión es escalable si ofrece una variedad de velocidades de decodificación y/o procesamiento utilizando el mismo algoritmo básico, y en la que los flujos de información de menor velocidad están incorporados dentro de los flujos de mayor velocidad de bits en un modo que minimiza la redundancia.

Se han propuesto diversos algoritmos que permiten la escalabilidad de la comunicación por video, incluyendo la frecuencia de trama (codificación escalable temporalmente), calidad visual (SNR) y escalabilidad espacial. Algo frecuente en estos procedimientos es que el vídeo se codifica en capas y la escalabilidad proviene de la decodificación de una o más capas.

Codificación escalable temporalmente

El video se codifica en tramas y un algoritmo de codificación de video escalable temporalmente permite la extracción de video de múltiples frecuencias de trama procedentes de un flujo único codificado. El video está dividido en múltiples conjuntos de tramas intercaladas. Al decodificar más de un conjunto de tramas, la frecuencia de trama aumenta.

Codificación escalable espacial

El algoritmo de compresión escalable espacial es un algoritmo en el que la primera capa tiene una resolución en curso, y la resolución de video puede mejorarse decodificando más capas.

Codificación escalable SNR (codificación escalable de calidad visual)

La compresión escalable SNR se refiere a la codificación de una secuencia de tal modo que videos de calidades diferentes se pueden reconstruir mediante la decodificación del flujo de bits codificado. La compresión escalable es útil en los entornos de redes heterogéneas actuales en los que diferentes usuarios tienen diferentes velocidades, resoluciones, visualizaciones y capacidades computacionales.

La patentes WO9918728 A1 describe un servidor multimedia que incluye un número de códecs diferentes, Los flujos de datos de diferentes estándares entran en el servidor y se encaminan en el códec apropiado, en el que se descomprimen los flujos de datos. Tras la descompresión, las señales se mezclan y se encaminan de vuelta a los códecs apropiados. Las señales se recomprimen en el estándar apropiado para cada unidad receptora antes de salir del servidor.

Resumen de la invención

Un objeto de la presente invención es proporcionar un sistema y un procedimiento que elimina los inconvenientes descritos anteriormente. Las características definidas en las reivindicaciones adjuntas caracterizan este sistema y procedimiento.

En un sistema centralizado tradicional, los puntos extremos enviarán una imagen a escala completa a una MCU, por ejemplo una imagen CIF codificada (352 x 288 píxeles) se enviará a la MCU. Para mejorar la calidad de la conferencia, sería útil presentar una imagen compuesta en cada punto extremo. Esta imagen completa puede mostrar un participante como una fracción principal de una pantalla completa, mientras que el resto de participantes se muestran como sub-imágenes más pequeñas. El participante, el tamaño del participante y el número de participantes que se muestran en cada sitio puede depender de las capacidades de procesamiento y visualización y la situación de conferencia. Si se supone que cada punto extremo debe recibir imágenes compuestas, la MCU tiene que realizar la manipulación de datos pesados como se describe en presencia continua y vista redimensionada. Tras la descodificación de los flujos de datos CIF codificados a imágenes de video, la MCU compondrá imágenes compuestas que se recodificarán y se enviarán al punto extremo apropiado.

Esta solución aumenta la demanda de la capacidad de la MCU central; la solución, en casos en los que un uso pesado de la codificación y decodificación es necesario, incorporará un retraso molesto entre los participantes de una conferencia multimedia.

En particular, la presente invención describe un procedimiento y sistema mejorado para el intercambio de información entre un número de unidades donde una unidad central, basada en el conocimiento relacionado con una pluralidad de sub-unidades, ordenará a las sub-unidades que generen flujos de datos multimedia ajustados a otras sub-unidades que participan en la misma sesión de tal modo que la unidad central puede encaminar flujos de datos sin utilizar sus códecs incorporados o un uso mínimo de dichos códecs.

Breve descripción de los dibujos

Para hacer que la invención se entienda más fácilmente, la descripción que sigue se referirá a los dibujos adjun-
tos.

La figura 1 muestra un ejemplo de una conferencia centralizada, con cuatro puntos extremos participando en una videoconferencia según la invención.

La figura 2 muestra una ejemplificación de la invención con cuatro puntos extremos participantes y EP D como el hablante actual y EPD como el hablante anterior.

Descripción detallada de la invención

Como se indica anteriormente, todas las soluciones tienen sus inconvenientes. Una característica de una videoconferencia de calidad será que incluye las posibilidades de mostrar ventanas compuestas, o diseños de vistas combinadas y correctas (es decir, 4:3, 16:9) sin molestos retrasos temporales. Todos estos requisitos deben alcanzarse con equipos existentes, es decir, con MCUs que están disponibles actualmente. Las soluciones conocidas no se escalan muy bien, ya que no tiene en cuenta la diferente capacidad de los diferentes puntos extremos en una conferencia. Idealmente, cada punto extremo debe recibir flujos de datos a medida para su capacidad y diseño. El procesamiento de datos adicionales realizado en la MCU central debe minimizarse. La debilidad indicada se aplica a soluciones centralizadas, descentralizadas, así como híbridas.

Para superar la debilidad arriba mencionada, esta invención toma las ventajas de la utilización de capacidad de procesamiento descentralizada en los puntos extremos participantes, y también se aprovecha de la utilización de un lenguaje de comandos para dar instrucciones a cada punto extremo participante sobre cómo tomar parte en la conferencia.

La idea es simplemente utilizar la capacidad disponible tan descentralizada como sea posible, por tanto, las peticiones en la MCU se reducirán, y también es importante para la optimización que la solución se escale bien. La MCU, mediante el uso de un lenguaje de comandos, obtendrá información sobre cada capacidad de los puntos extremos como un receptor y un transmisor en cuanto a la velocidad de bits disponibles, la capacidad de decodificación, etc., por tanto, la MCU adaptará los flujos de datos a cada punto extremo según sus especificaciones, como resultado se obtendrán sistemas bien escalados.

Así, la MCU recogerá información relacionada con la capacidad de codificación de cada punto extremo en relación al número de tramas múltiples que puede hacer y a qué resolución, las velocidades de bits y las frecuencias de tramas. Además, la MCU tendrá conocimientos relacionados con los diseños de puntos extremos, etc., como se indica anteriormente. Con esto, la MCU será capaz de analizar esta información y personalizar una conferencia. Por tanto, el pensamiento está basado en el conocimiento de las capacidades de codificación a los puntos extremos, que los puntos extremos utilizarán sus capacidades para enviar flujos multimedia optimizados. Así, la necesidad de procesamiento en la MCU se reducirá drásticamente en comparación con lo que es normal en una conferencia de calidad
similar.

Conmutación de datos Presencia continua

Se pueden dar instrucciones a los codificadores para que envíen un flujo mayor pero aún así reducido a la MCU. Las instrucciones se enviarán en un lenguaje de comandos desde el MC en la MCU central a cada codificador del participante en la conferencia multimedia. También se puede dar instrucciones a los puntos extremos para que envíen dicho flujo y un flujo más pequeño. La MCU puede entonces combinar flujos a una vista actual con por ejemplo el hablante en una ventana "grande" junto con el resto de participantes en ventanas más pequeñas. Este hablante puede recibir el hablante anterior en una ventana "grande" con el resto de participantes en ventanas "pequeñas". Un ejemplo de diseño es 5+1.

La capacidad MCU necesaria puede reducirse significativamente mediante el control del tamaño de cada flujo y la velocidad de bits utilizada. El MC utilizará las capacidades de codificación y decodificación intercambiadas en un comando establecido para seleccionar los diseños apropiados. Las capacidades del codificador restringirán el tamaño y el número de tramas parciales desde un punto extremo, y las capacidades del decodificador restringirán el número y el tamaño de tramas parciales que puede recibir un punto extremo. Esto forma la base sobre la que la MCU puede decidir sus diseños.

La MCU dar instrucciones a los puntos extremos para enviar una o más tramas parciales de la sesión. El tamaño de estas tramas parciales dependerá del número de participantes de la conferencia y el diseño escogido; la MCU dará instrucciones a los puntos extremos al inicio de la sesión relacionadas con el tamaño de las tramas parciales. Así, cada punto extremo enviará una fracción de una imagen compuesta en el formato solicitado. La MCU también puede dar comandos adicionales durante la sesión para cambiar el diseño. La cantidad de datos que tienen que codificarse en el punto extremo será por consiguiente substancialmente menor, al menos para los participantes que no hablan. La MCU recibirá imágenes codificadas que ya tienen el formato correcto, por tanto, la MCU no tiene que decodificar los flujos de video entrante. La MCU solo juntará las imágenes compuestas procedentes de las tramas parciales entrantes sin ninguna decodificación o codificación. Esto puede conseguirse mediante la manipulación de sintaxis de alto nivel en el flujo de video para producir una trama combinada, o mediante identificando, etiquetando y reenviando una selección de los flujos de video a todos los puntos extremos, donde pueden decodificarse separadamente y unirse para una vista compuesta.

Así, la necesidad de la capacidad de procesamiento se reduce drásticamente y, al evitar el procesamiento de los flujos de video, el retraso se reducirá correspondientemente.

En una conferencia centralizada, la MCU dará instrucciones a los puntos extremos en la conferencia para hacer una o más tramas parciales. Los puntos extremos codificarán sus flujos de video para cumplir con el formato de estas tramas parciales. Las tramas parciales se envían a continuación desde punto extremo a la MCU. La MCU combinará las tramas parciales en una o más tramas combinadas. Las estructuras de estas tramas combinadas se denominan diseños. Los diseños contienen el formato de las tramas parciales recibidas para un conjunto dado de tramas combinadas, y las instrucciones enviadas a cada punto extremo se derivan desde los diseños de estas tramas combinadas. Típicamente, un diseño está definido para la Vista Actual con una trama de escala 4:3, y otro para una trama de escala 16:9. La trama combinada para la Vista Anterior se escalará típicamente para concordar con el punto extremo que la recibe siguiendo el mismo principio que para la vista actual. Las tramas combinadas se envían a cada punto extremo en la conferencia con el mejor diseño concordante para ese punto extremo específico.

En una conferencia descentralizada, la MCU dará instrucciones a los puntos extremos en la conferencia para hacer una o más tramas parciales. Los puntos extremos codificarán sus flujos de video para cumplir con el formato de estas tramas parciales. Estas tramas parciales se distribuyen a todos los puntos extremos de la conferencia. Cada punto extremo combinará las tramas parciales en tramas combinadas con un conjunto de diseños. El MC decide y señaliza los diseños a cada punto extremo separadamente. Diferentes puntos extremos en la conferencia pueden tener diferentes diseños asignados a los mismos. Típicamente, algunos puntos extremos combinan tramas parciales en una vista actual, mientras que otros se combinan en una vista anterior.

La MCU central, con la utilización de un lenguaje de comandos comunicados con los canales de control, solicitará al punto extremo que proporcione información sobre su capacidad en cuanto a velocidades de bits, diseños y algoritmos de descompresión. La MCU central, en base a las respuestas de las MCU descentralizadas, establecerá una sesión hecha a medida de cada especificación de punto extremo en cuanto a velocidades de bits y a los otros parámetros descritos anteriormente. La invención puede utilizar la escalabilidad como se describe anteriormente para codificar los flujos de video múltiples en varias velocidades de bits y resoluciones para asegurar la mejor utilización del ancho de banda disponible.

Conjunto de comandos señalizados

Describe el conjunto de comandos entre la MCU central y cada punto extremo. El conjunto de comandos se utiliza para dar instrucciones a la codificación de tramas parciales en los puntos extremos y el diseño de los flujos de video, y el conjunto de capacidades describe el rango de formatos que se puede recibir en cada punto extremo. Los comandos para alinear o cambiar capacidades también pueden formar parte del lenguaje.

Primera realización de la invención Ejemplo de Conferencia centralizada

El ejemplo de una conferencia centralizada se muestra en la figura 4.1 El ejemplo contiene una MCU central. La MCU tiene una conferencia con 4 puntos extremos. Se han nombrado Punto Extremo A, B, C y D. Cada punto extremo tiene un canal de control bidireccional, un flujo de video que va desde el punto extremo hasta la MCU y un flujo de video que va desde la MCU al punto extremo. El hablante actual en la conferencia está en el Punto Extremo A, y el Punto Extremo A está, por tanto, recibiendo una trama combinada de la vista anterior. El resto de puntos extremos en la conferencia están recibiendo diferentes tramas combinadas de la vista actual. El punto extremo D es el hablante anterior.

La MCU señaliza mediante el conjunto de comandos descritos anteriormente al punto extremo A que produzca dos tramas parciales. Estas son la Trama Parcial 1 y la Trama Parcial 5. El tamaño, el formato y la escala de ambas tramas parciales se señalizan específicamente. La Trama Parcial 1 es parte del diseño para la vista actual 16:9 seleccionada por la MCU. La Trama Parcial 5 es parte del diseño para la vista actual 4:3 seleccionada también por la MCU. La MCU recibe continuamente un flujo de video desde el punto extremo A que contiene el formato de tanto la Trama Parcial 1 como la Trama Parcial 5 hasta que un nuevo comando es señalizado desde la MCU hasta el punto extremo A.

De forma similar que el Punto extremo A, la MCU está señalizando al punto extremo B que codifique la trama parcial 2 y la trama parcial 6. El punto extremo C debe codificar la trama parcial 3 y la trama parcial 7. El punto extremo D debe codificar la trama parcial 4, la trama parcial 6 y la trama parcial 9.

La MCU recibe todas las tramas parciales 1 a 9. Con el diseño para la "Trama Combinada Vista Actual 16:9" el MCU combina la Trama Parcial 1, la Trama Parcial 2, la Trama Parcial 3 y la Trama parcial 4. Esta trama combinada se envía al Punto Extremo C y al Punto Extremo B. Ambos han señalizado que pueden recibir una trama escalada 16:9. Con el diseño para la "Trama Combinada Vista Actual 4:3" el MCU combina la Trama Parcial 5, la Trama Parcial 6, la Trama Parcial 7 y la Trama Parcial 8. Esta trama combinada se envía al Punto Extremo D que solo puede recibir una trama de escala 4:3.

La combinación de la Trama Parcial 9, la trama Parcial 3 y la Trama Parcial 5 hace el diseño para la "Trama Combinada vista Anterior 16:9".

Ejemplo de un grupo de comandos para la implementación de la invención

Este ejemplo es un intercambio reducido de información entre las unidades participantes para ilustrar cómo debe implementarse la comunicación. En una situación real, las distintas capacidades de los puntos extremos, como los estándares de codificación y el ancho de banda, y las capacidades de la MCU pueden causar varias series de intercambios para alinear las capacidades, La adición de nuevos puntos extremos improvisadamente también puede causar la realineación de capacidades durante la sesión.

Por motivos de simplicidad, este intercambio asume que las capacidades de la MCU lo abarcan todo y que las capacidades de los puntos extremos coinciden de tal modo que la alineación no es necesaria. También es un caso real que todas las unidades en la sesión sean del mismo tipo.

En este ejemplo, diversos puntos extremos obtienen el mismo diseño. En un caso real, cada punto extremo puede tener diferentes diseños e incluso diferentes relaciones de aspecto según su visualización.

\vskip1.000000\baselineskip

Intercambio de capacidad

El intercambio entre las unidades participantes da información relacionada con las capacidades de procesamiento como estándares, tamaño de imagen, frecuencia de trama y ancho de banda.

\vskip1.000000\baselineskip

Capacidad del Codificador/Descodificador

DECCAP-{ProcessingRate, NumberOfStreams, TotalImageSize, Bandwidth}

ENCCAP-{ProcessingRate, NumberOfStreams, TotalImageSize, Bandwidth} ProcessingRate (Velocidad de procesamiento) - La habilidad para procesar elementos de video. Estos elementos pueden medirse en MacroBlocks (MBs), que es un grupo de 16x16 píxeles.

NumberOfStreams (Número de flujos) - El número de flujos separados que puede manejarse.

TotalImageSize (Tamaño Total de la Imagen) - El tamaño combinado máximo de todos los flujos, también medido en MBs. La descripción de la imagen también puede contener la relación de aspecto de la imagen.

Bandwidth (ancho de banda) - La velocidad de datos total máxima que puede enviarse o recibirse.

\vskip1.000000\baselineskip

Comandos

Un pequeño grupo de comandos que permitirá el intercambio de datos. CODE-SEQn- {Resolution, FrameRate, Bandwidth}.

Un comando para un codificador que fuerza la codificación de un flujo de video con un conjunto de limitaciones.

Resolution (Resolución) - El tamaño de la imagen de video medido en MBs.

FrameRate (Frecuencia de trama) - El número de imágenes de video que se puede enviar por segundo (F/s).

Bandwidth (Ancho de banda) - El número de bits por segundo que se pueden utilizar para este flujo de video (Bits/s). STOP-Seqn. Un comando para parar la codificación de un flujo de video particular.

LAYOUT (DISEÑO) {Mode, SEQ1, SEQ2, .., SEQm}

Un comando para un decodificador que le dice cómo colocar un número de flujos en la visualización.

Mode (Modo)- El diseño particular escogido, p. ej., 5+1, en el que está definido el número de flujos y su posición en la pantalla.

Seq1.m - La ID de las secuencias que pueden colocarse en el diseño definido. El orden de las secuencias da la posición. Si una posición particular no tiene ningún flujo, puede utilizarse SEQ0.

\vskip1.000000\baselineskip

Solicitud

GET-FLOOR La entrega del hablante actual a un punto extremo particular.

\vskip1.000000\baselineskip

Intercambio de datos

VIDEO-FRAME-SEQn

Los datos de video codificado para una trama de una secuencia de video particular. Por simplicidad, las unidades de datos para una secuencia de video están definidas como una trama.

El ejemplo utilizado es el mostrado en la figura 2, donde EP A es el hablante actual y EP D es el hablante anterior; el intercambio de capacidad adicional, los comandos para el inicio de sesión, los comandos para capturar la palabra y el intercambio de datos se muestran en los siguientes esquemas.

\vskip1.000000\baselineskip

Intercambio de capacidad

1

\vskip1.000000\baselineskip

Comandos para el inicio de sesión

2

Comandos para capturar la palabra

B pasa a ser el hablante actual y A el hablante anterior

3

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

Intercambio de datos

4

\vskip1.000000\baselineskip

Conferencia descentralizada

Utilizando la misma situación descrita anteriormente, en una conferencia descentralizada, la MC dará instrucciones a EP A para codificar y transmitir PF1 a EP B y C y para enviar PF5 a EP D. EP B transmitirá PF 2 a EP A, B y C y enviará PF 6 a EP D. EP C transmitirá PF 3 a EP A, B y C y enviará PF 7 a EP D. Finalmente, EP D transmitirá PF 4 a EP A, B y C, enviará PF 8 a EP D y enviará PF 9 a EP A.

\newpage

Ventajas

Algunas de las ventajas según la presente invención se resumen a continuación:

\bullet: Reducción del requisito de procesamiento en la unidad central. Conduce a una solución más escalable.

\bullet: Reducción del retraso en la transmisión en comparación con la transcodificación.

\bullet: Reducción de la capacidad de procesamiento en puntos extremos debido a un tamaño de imagen total menor. Mejor calidad de video ya que no se requiere el redimensionamiento en la unidad central o en los puntos extremos.

Equivalentes

Aunque esta invención se ha mostrado y descrito particularmente con referencias a las realizaciones preferidas de la misma, aquellos expertos en la técnica entenderán que se pueden realizar varios cambios en la forma y los detalles de la misma sin aparatarse del ámbito y el espíritu de la invención, como se define en las reivindicaciones adjuntas.

En los ejemplos anteriores, las realizaciones preferidas de la presente invención están ejemplificadas mediante el uso de tramas de escala 4:3 y 16:9 en una visualización, sin embargo, la solución no está limitada a la utilización de estas relaciones de aspecto, se pueden implementar otras relaciones de aspecto conocidas, como por ejemplo 14:9 u otras relaciones que puede dividirse en un esquema de cuadrícula en una visualización.

Por ejemplo, la idea de utilizar tramas parciales basadas en el conocimiento de cada punto extremo en una conferencia se amplía para utilizarse siempre que exista la necesidad de enviar flujos multimedia entre una pluralidad de usuarios. El concepto tendrá interés dentro de las emisiones tradicionales, particularmente cuando se cubren acontecimientos a tiempo real. Al imaginar un escenario donde se utiliza una pluralidad de cámaras para cubrir un acontecimiento, si cada cámara está transfiriendo información a una unidad centralizada según las reglas negociadas entre la unidad centralizada y las cámaras, se puede ahorrar mucha capacidad de procesamiento en la unidad centralizada. Además, sería mucho más fácil y rápido procesar tramas compuestas/PIP para los usuarios finales.

Otro ejemplo es que el requisito físico de la MCU descrita y el MC sea similar, se puede realizar cualquier combinación de conferencia Centralizada y Descentralizada, también se espera que las realizaciones tengan MCUs tradicionales como parte de la red para que sean compatibles con las versiones anteriores de las soluciones de hoy en día.

Una de las ideas principales de la invención es: la utilización de la capacidad allá donde se encuentra. En un intercambio de flujo multimedia multipunto tradicional, hay una estación central o unidad centralizada que administra el intercambio de datos. Tradicionalmente, esta unidad centralizada no ha negociado con todas las unidades periféricas que participan en el intercambio de datos para optimizar el intercambio de datos según la capacidad de cada unidad periférica, por tanto, no se conoce o no es frecuente una utilización optimizada de toda la capacidad de procesamiento disponible.

Abreviaturas y referencias

Punto extremo: cualquier terminal capaz de unirse a una conferencia.

Medios: Audio, video y datos similares.

Flujo: medio continuo.

Unidad de control multipunto (MCU): La entidad que controla y se ocupa de los medios para 3 o más puntos extremos es, en una conferencia, un Controlador

Multipunto (MC): Se ocupa del control de 3 o más puntos extremos en una conferencia.

Conferencia centralizada: Los canales de control se señalizan de forma unidireccional o bidireccional entre los puntos extremos y la MCU. Cada punto extremo envía sus medios a la MCU. La MCU mezcla y combina los medios y devuelve los medios a los puntos extremos.

Conferencia descentralizada: Los canales de control se señalizan de forma unidireccional o bidireccional entre los puntos extremos y la MCU. Los medios se transportan como multidifusión entre los puntos extremos, y los puntos extremos mezclan y combinan los medios por sí solos.

Conferencia híbrida: La MCU tiene una conferencia que es parcialmente centralizada y parcialmente descentralizada.

Hablante: El participante en el punto extremo que habla más alto entre los puntos extremos en una conferencia.

Vista Actual: El flujo de video procedente del hablante actual.

Vista Anterior: El flujo de video procedente del hablante anterior.

Vista Combinada: Un flujo de video de alta resolución sacado de flujos de video de baja resolución.

Vista redimensionada: Un flujo de video hecho de otro flujo de video mediante redimensionamiento.

\vskip1.000000\baselineskip

Referencias citadas en la descripción

Esta lista de referencias citadas por el solicitante está prevista únicamente para ayudar al lector y no forma parte del documento de patente europea. Aunque se ha puesto el máximo cuidado en su realización, no se pueden excluir errores u omisiones y la OEP declina cualquier responsabilidad al respecto.

Documentos de patente citados en la descripción

\bullet WO 9918728 A1 [0019]

Claims

1. Sistema que permite el intercambio simultáneo de informaciones de audio, video y/o datos entre una pluralidad de puntos extremos en una red de comunicaciones y soportado por una unidad central,

la pluralidad de puntos extremos comprendiendo puntos extremos transmisores y puntos extremos receptores,

en el que el sistema está adaptado para el intercambio bidireccional de flujos multimedia entre la unidad central y la pluralidad de puntos extremos, el sistema está adaptado para componer flujos multimedia comprendiendo tramas parciales, y

la unidad central está, basándose en la información de capacidad recibida desde uno o más de los puntos extremos, adaptada para dar instrucciones a dicho uno o más puntos extremos transmisores para generar flujos multimedia que comprenden tramas parciales ajustadas para corresponderse con las capacidades de los puntos extremos receptores que participan en una sesión.

\vskip1.000000\baselineskip

2. Sistema según la reivindicación

1, caracterizado por el hecho de que

la información de capacidad es una de las siguientes: formatos de visualización, anchos de banda de transmisión, requisitos de procesamiento o múltiples combinaciones de los mismos.

\vskip1.000000\baselineskip

3. Sistema según cualquiera de las reivindicaciones 1 ó 2,

caracterizado por el hecho de que

la unidad central está adaptada para componer un flujo de datos combinados desde uno o más flujos de datos únicos enviados desde uno o más puntos extremos transmisores y para encaminar dicho flujo combinado a los puntos extremos receptores.

\vskip1.000000\baselineskip

4. Sistema según cualquiera de las reivindicaciones 1-3,

caracterizado por el hecho de que

la sesión es una sesión de videoconferencia.

\vskip1.000000\baselineskip

5. Sistema según cualquiera de las reivindicaciones 1-4,

caracterizado por el hecho de que

la comunicación entre dicha unidad central y la pluralidad de puntos extremos utiliza técnicas de compresión escalables.

\vskip1.000000\baselineskip

6. Sistema según la reivindicación 1,

caracterizado por el hecho de que

la unidad central está dispuesta para solicitar a un punto extremo que de información respecto a su capacidad con la utilización de un lenguaje de comandos comunicado mediante canales de control.

\vskip1.000000\baselineskip

7. Sistema según cualquiera de las reivindicaciones 1-6,

caracterizado por el hecho de que

una visualización, incluida en dicha pluralidad de puntos extremos, está dividida en una cuadrícula de celdas, donde cada dicha trama parcial ocupa una o más celdas de la cuadrícula y la visualización puede tener varias relaciones de aspecto.

\newpage

8. Sistema según la reivindicación 7,

caracterizado por el hecho de que

cada trama parcial ocupa un número variante de celdas adyacentes.

\vskip1.000000\baselineskip

9. Sistema según la reivindicación 4,

caracterizado por el hecho de que

dicha sesión de videoconferencia es una conferencia centralizada, una conferencia descentralizada o una conferencia híbrida.

\vskip1.000000\baselineskip

10. Procedimiento para intercambiar simultáneamente informaciones de audio, video y/o datos entre una pluralidad de puntos extremos en una red de comunicaciones soportado por una unidad central, la pluralidad de puntos extremos comprendiendo puntos extremos transmisores y puntos extremos receptores,

caracterizado por el hecho de que

da instrucciones a uno o más de los puntos extremos transmisores, basándose en la información de capacidad recibida desde uno o más puntos extremos, para generar flujos multimedia comprendiendo tramas parciales ajustadas para corresponderse con las capacidades de los puntos extremos receptores que participan en una sesión; y por el intercambio bidireccional de flujos multimedia entre la unidad central y los puntos extremos, donde dichos flujos multimedia están compuestos de tramas parciales.

\vskip1.000000\baselineskip

11. Sistema según la reivindicación 10,

caracterizado por el hecho de que

la información de capacidad es una de las siguientes:

formatos de visualización,

ancho de banda de transmisión,

requisitos de procesamiento o

múltiples combinaciones de los mismos.

\vskip1.000000\baselineskip

12. Procedimiento según cualquiera de las reivindicaciones 10 ó 11,

caracterizado por

la composición, en la unidad central, de un flujo de datos combinados compuesto desde uno o más flujos de datos únicos enviados desde uno o más puntos extremos transmisores y

por encaminar dicho flujo combinado a los puntos extremos receptores.

\vskip1.000000\baselineskip

13. Procedimiento según cualquiera de las reivindicaciones 10-12,

caracterizado por el hecho de que

la sesión se mantiene como una sesión de videoconferencia.

\vskip1.000000\baselineskip

14. Procedimiento según cualquiera de las reivindicaciones 10-13,

caracterizado por

la utilización de técnicas de compresión durante el intercambio de datos entre dicha unidad central y la pluralidad de puntos extremos.

\vskip1.000000\baselineskip

15. Procedimiento según cualquiera de las reivindicaciones 10-14,

caracterizado por

la división de una visualización en una cuadrícula de celdas, donde cada dicha trama parcial ocupa una o más celdas de la cuadrícula y la visualización puede tener varias relaciones de aspecto.

\vskip1.000000\baselineskip

16. Procedimiento según la reivindicación 15,

caracterizado por el hecho de que

se permite que cada trama parcial ocupe un número variante de celdas adyacentes.

\vskip1.000000\baselineskip

17. Procedimiento según la reivindicación 13,

caracterizado por el hecho de que

\vskip1.000000\baselineskip

18. Procedimiento según la reivindicación 10,

caracterizado por el hecho de que

la unidad central solicita a un punto extremo que dé información respecto a su capacidad con la utilización de un lenguaje de comandos comunicado mediante canales de control.