ES3058266T3

ES3058266T3 - Transmitting device and receiving device

Info

Publication number: ES3058266T3
Application number: ES23174513T
Authority: ES
Inventors: Ikuo Tsukagoshi
Original assignee: Sony Group Corp
Current assignee: Sony Group Corp
Priority date: 2014-09-30
Filing date: 2015-09-16
Publication date: 2026-03-09
Anticipated expiration: 2035-09-16
Also published as: WO2016052191A1; US12283282B2; JP2021105735A; RU2017109625A; CN113921020B; EP3203469A1; CN106716524B; US20240089534A1; US10856042B2; EP4254405A2; US11871078B2; US20240114202A1; RU2701060C2; EP3203469A4; CN113921019B; EP4601259A3; JP2025026730A; RU2017109625A3; EP4254405A3; CN113921020A

Abstract

Para reducir la carga de procesamiento en recepción cuando se transmiten varios tipos de elementos de datos de audio, se transmite un contenedor en un formato predeterminado con un número predeterminado de flujos de audio que incluyen elementos de datos codificados de varios grupos. Por ejemplo, los elementos de datos codificados de los grupos incluyen elementos de datos codificados por canal o por objeto, o ambos. La información de atributos que indica los atributos respectivos de los elementos de datos codificados de los grupos se inserta en una capa del contenedor o en una capa de un flujo de audio. Por ejemplo, se inserta además información de correspondencia de flujos que indica qué flujo de audio incluye cada uno de los elementos de datos codificados de los grupos. (Traducción automática con Google Translate, sin valor legal)

Description

[0001] DESCRIPCIÓN

[0002] Dispositivo transmisor y dispositivo receptor

[0003] Campo técnico

[0004] La presente tecnología se refiere a un aparato de transmisión y a un aparato de recepción y, más particularmente, a un aparato de transmisión o similar que transmite una pluralidad de tipos de elementos de datos de audio.

[0005] Antecedentes de la técnica

[0006] En la técnica relacionada, como tecnología acústica tridimensional (3D), se ha propuesto una tecnología en la que un elemento de datos de muestra codificado se mapea y se renderiza en un altavoz presente en cualquier posición en función de un elemento de metadatos (por ejemplo, véase la bibliografía de patentes 1).

[0007] El documento ISO/IEC JTC 1/SC 29; 109ª reunión de MPEG, celebrada en Sapporo (Japón) el 25 de julio de 2014, se refiere a codificación de alta eficiencia y la entrega de medios en entornos heterogéneos.

[0008] El documento EP 3196876 A1 describe un dispositivo de transmisión, un método de transmisión, un dispositivo de recepción y un método de recepción. La carga de procesamiento de un lado de recepción se reducirá cuando se transmita una pluralidad de tipos de datos de audio. Se transmite un contenedor de formato predeterminado que tiene un número predeterminado de flujos de audio, incluyendo una pluralidad de datos codificados en grupo. La información de atributos que indica un atributo de cada uno de la pluralidad de datos codificados en grupo se inserta en una capa del contenedor.

[0009] El documento EP 2416321 A1 describe un dispositivo generador de datos que incluye: una sección de codificación que codifica una pluralidad de tipos de datos y genera datos codificados; una sección de generación de información que genera una pluralidad de piezas de información de grupo que indican combinaciones de una pluralidad de tipos de datos; y una sección de generación de archivos que genera un archivo de almacenamiento de datos codificados que incluye los datos codificados de la pluralidad de tipos de datos y la pluralidad de piezas de información de grupo. El documento US 2006/0256701 A1 describe un medio de grabación de información que incluye un archivo para almacenar datos de objetos que consiste en una pluralidad de paquetes y un archivo para almacenar, como su información de control de reproducción, (i) información de definición de correspondencia para definir la relación entre una pluralidad de paquetes y una pluralidad de flujos parciales multiplexados en el eje temporal y (ii) información de definición del grupo de salidas de reproducción para definir como grupo de salidas de reproducción un conjunto de flujos parciales que pueden conmutar entre la pluralidad de flujos parciales. Los flujos parciales incluyen una pluralidad de flujos de canal en donde la información de audio de varios canales se graba en un flujo. La información de definición del grupo de salidas de reproducción define el grupo de salidas de reproducción de tal modo que una pluralidad de flujos de canal puede pertenecerle de manera redundante. El grupo de salida de reproducción al que pertenecen de manera redundante varios flujos de canal se añade mediante la información de especificación de canal.

[0010] El documento de Schreiner y col. “On multiple MPEG-H 3D Audio streams”, ISO/IEC JTC1/SC29/WG11 MPEG2014/M342.66, de julio de 2014, Sapporo, Japón, se refiere a múltiples flujos de audio MPEG-H 3D.

[0011] El documento “Digital Video Broadcasting (DVB); Implementation guidelines for the use of Video and Audio Coding in Broadcasting Applications based on the MPEG-2 Transport Stream” ETSI TS 101154 v1.9.1, de septiembre de 2009, se refiere a la especificación para el uso de la codificación de vídeo y audio en aplicaciones de difusión basadas en el flujo de transporte MPEG-2.

[0012] Lista de citas

[0013] Bibliografía de patentes

[0014] Bibliografía 1 de patentes: Traducción de la publicación de la solicitud internacional PCT número 2014-520491Descripción de la invención

[0015] Problema técnico

[0016] Es concebible que un sonido con una sensación realista mejorada pueda regenerarse en el lado de recepción enviando un elemento de datos codificado por objeto que incluya un elemento de datos de muestra codificado y un elemento de metadatos, junto con un elemento de datos codificado por canal de 5.1 canales, 7.1 canales o similares.

[0017] Un objetivo de la presente tecnología es reducir la carga de procesamiento en el lado de recepción en caso de que se transmita una pluralidad de tipos de elementos de datos de audio.

[0018] Solución al problema

[0019] El objeto reivindicado está definido en las reivindicaciones independientes. Aunque la invención reivindicada solo está definida por las reivindicaciones, las siguientes realizaciones, ejemplos y aspectos están presentes para ayudar a comprender los antecedentes y las ventajas de la invención reivindicada.

[0020] Un concepto de la presente tecnología es un aparato de transmisión que incluye una unidad de transmisión que transmite un contenedor en un formato predeterminado con un número predeterminado de flujos de audio que incluyen elementos de datos codificados de una pluralidad de grupos, y una unidad de inserción de información que inserta información de atributos que indica los atributos respectivos de los elementos de datos codificados de la pluralidad de grupos en una capa del contenedor y/o una capa de un flujo de audio.

[0021] En la presente tecnología, la unidad de transmisión transmite el contenedor en el formato predeterminado con el número predeterminado de flujos de audio que incluyen los elementos de datos codificados de la pluralidad de grupos. Por ejemplo, los elementos de datos codificados de la pluralidad de grupos pueden incluir uno o bien ambos elementos de datos codificados por canal y elementos de datos codificados por objeto.

[0022] Mediante la unidad de inserción de información, la información de atributos que indica los atributos respectivos de los elementos de datos codificados de la pluralidad de grupos se inserta en la capa del contenedor y/o en la capa de flujo de audio. Por ejemplo, el contenedor puede ser un flujo de transporte (MPEG-2 TS) que haya sido adoptado en un estándar de difusión digital. También, por ejemplo, el contenedor puede estar en un formato de MP4 utilizado para la entrega por Internet u otros.

[0023] Por lo tanto, en la presente tecnología, la información de atributos que indica los atributos respectivos de los elementos de datos codificados de la pluralidad de grupos incluidos en el número predeterminado de flujos de audio se inserta en la capa del contenedor y/o la capa de flujo de audio. En consecuencia, los atributos respectivos de los elementos de datos codificados de la pluralidad de grupos pueden reconocerse fácilmente antes de decodificar los elementos de datos codificados en el lado de recepción, y se pueden decodificar y utilizar selectivamente solo los elementos de datos codificados de un grupo necesario, por lo que es posible reducir la carga de procesamiento.

[0024] Además, en la presente tecnología, por ejemplo, la unidad de inserción de información puede insertar además información de relación de correspondencia de flujo que indica qué flujo de audio incluye cada uno de los elementos de datos codificados de la pluralidad de grupos en la capa del contenedor y/o la capa de flujo de audio. De este modo, los flujos de audio que incluyen los elementos de datos codificados del grupo necesario se pueden reconocer fácilmente en el lado de recepción, por lo que es posible reducir la carga de procesamiento.

[0025] En este caso, por ejemplo, el contenedor puede ser MPEG2-TS, y la unidad de inserción de información puede insertar la información de atributos y la información del identificador de flujo en un bucle de flujo elemental de audio correspondiente a al menos uno o más de los flujos de audio de entre el número predeterminado de flujos de audio presentes en una tabla de mapas de programas en caso de que la información de atributos y la información del identificador de flujo se inserten en el contenedor.

[0026] También, en este caso, por ejemplo, la unidad de inserción de información puede insertar la información de atributos y la información de relación de correspondencia de flujo en una carga útil PES de un paquete PES de al menos uno o más de los flujos de audio de entre el número predeterminado de flujos de audio en caso de que la información de atributos y la información de relación de correspondencia de flujo se inserten en el flujo de audio.

[0027] Por ejemplo, la información de relación de correspondencia de flujo puede ser información que indique una relación de correspondencia entre un identificador de grupo para identificar cada uno de los elementos de datos codificados de la pluralidad de grupos y un identificador de flujo para identificar cada uno del número predeterminado de flujos de audio. En este caso, por ejemplo, la unidad de inserción de información puede insertar información del identificador de flujo que indique el identificador de flujo de cada uno del número predeterminado de flujos de audio en la capa del contenedor y/o la capa de flujo de audio.

[0028] Por ejemplo, el contenedor puede ser MPEG2-TS y la unidad de inserción de información puede insertar la información del identificador de flujo en un bucle de flujo elemental de audio correspondiente a cada uno del número predeterminado de flujos de audio presentes en una tabla de mapas de programas en caso de que la información del identificador de flujo se inserte en el contenedor. También, por ejemplo, la unidad de inserción de información puede insertar la información del identificador de flujo en una carga útil PES de un paquete PES de cada uno del número predeterminado de flujos de audio en caso de que la información del identificador de flujo se inserte en el flujo de audio.

[0029] También, por ejemplo, la información de relación de correspondencia de flujo puede ser información que indique una relación de correspondencia entre el identificador de grupo para identificar cada uno de los elementos de datos codificados de la pluralidad de grupos y un identificador de paquete añadido cuando se empaqueta cada uno del número predeterminado de flujos de audio. También, por ejemplo, la información de relación de correspondencia de flujo puede ser información que indique una relación de correspondencia entre el identificador de grupo para identificar cada uno de los elementos de datos codificados de la pluralidad de grupos y una información de tipo que indique un tipo de flujo de cada uno del número predeterminado de flujos de audio.

[0030] Además, otro concepto de la presente tecnología es un aparato de recepción que incluye una unidad receptora que recibe un contenedor en un formato predeterminado con un número predeterminado de flujos de audio que incluye elementos de datos codificados de una pluralidad de grupos, información de atributos que indica los atributos respectivos de los elementos de datos codificados de la pluralidad de grupos que se insertan en una capa del contenedor y/o una capa de un flujo de audio, y una unidad de procesamiento que procesa el número predeterminado de flujos de audio incluidos en el contenedor recibido en función de la información de atributos.

[0031] En la presente tecnología, la unidad receptora recibe el contenedor en el formato predeterminado con el número predeterminado de flujos de audio que incluyen elementos de datos codificados de la pluralidad de grupos. Por ejemplo, los elementos de datos codificados de la pluralidad de grupos pueden incluir uno o bien ambos de los elementos de datos codificados por canal y de los elementos de datos codificados por objeto. La información de atributos que indica los atributos respectivos de los elementos de datos codificados de la pluralidad de grupos se inserta en la capa del contenedor y/o en la capa de un flujo de audio. La unidad de procesamiento procesa el número predeterminado de flujos de audio incluidas en el contenedor recibido en función de la información de atributos. Por lo tanto, en la presente tecnología, el número predeterminado de flujos de audio incluidas en el contenedor recibido se procesa en función de la información de atributos que indica los atributos respectivos de los elementos de datos codificados de la pluralidad de grupos insertados en la capa del contenedor y/o la capa de flujo de audio. En consecuencia, solo los elementos de datos codificados del grupo necesario pueden decodificarse y utilizarse selectivamente, por lo que es posible reducir la carga de procesamiento.

[0032] Además, en la presente tecnología, por ejemplo, la información de relación de correspondencia de flujo que indica qué flujo de audio incluye cada uno de los elementos de datos codificados de la pluralidad de grupos se inserta además en la capa del contenedor y/o en la capa de flujo de audio. La unidad de procesamiento puede procesar el número predeterminado de flujos de audio en función de la información de relación de correspondencia de flujo además de la información de atributos. En este caso, los flujos de audio que incluyen los elementos de datos codificados del grupo necesario pueden reconocerse fácilmente, por lo que es posible reducir la carga de procesamiento.

[0033] También, en la presente tecnología, por ejemplo, la unidad de procesamiento puede realizar un procesamiento de decodificación selectiva en los flujos de audio que incluyen elementos de datos codificados de un grupo con atributos adaptados para una configuración de altavoz y una información de selección de usuario en función de la información de atributos y la información de relación de correspondencia de flujo.

[0034] Además, otro concepto de la presente tecnología es un aparato de recepción que incluye una unidad receptora que recibe un contenedor en un formato predeterminado con un número predeterminado de flujos de audio que incluyen elementos de datos codificados de una pluralidad de grupos, información de atributos que indica los atributos respectivos de los elementos de datos codificados de la pluralidad de grupos que se insertan en una capa del contenedor y/o una capa de un flujo de audio, una unidad de procesamiento que adquiere selectivamente elementos de datos codificados de un grupo predeterminado a partir del número predeterminado de flujos de audio incluidos en el contenedor recibido en función de la información de atributos, y reconfigura los flujos de audio que incluyen los elementos de datos codificados del grupo predeterminado, y una unidad de transmisión de flujo que transmite los flujos de audio reconfigurados por la unidad de procesamiento a un dispositivo externo.

[0035] En la presente tecnología, la unidad receptora recibe el contenedor en el formato predeterminado con el número predeterminado de flujos de audio que incluyen los elementos de datos codificados de la pluralidad de grupos. La información de atributos que indica los atributos respectivos de los elementos de datos codificados de la pluralidad de grupos se inserta en la capa del contenedor y/o en la capa de flujo de audio. La unidad de procesamiento adquiere selectivamente los elementos de datos codificados del grupo predeterminado a partir del número predeterminado de flujos de audio incluidos en el contenedor recibido en función de la información de atributos, y reconfigura los flujos de audio que incluyen los elementos de datos codificados del grupo predeterminado. La unidad de transmisión de flujo transmite los flujos de audio reconfigurados por la unidad de procesamiento al dispositivo externo.

[0036] Por lo tanto, en la presente tecnología, los elementos de datos codificados del grupo predeterminado se adquieren selectivamente a partir del número predeterminado de flujos de audio en función de la información de atributos que indica los atributos respectivos de los elementos de datos codificados de la pluralidad de grupos insertados en la capa del contenedor y/o la capa de un flujo de audio, y se reconfiguran los flujos de audio que se van a transmitir al dispositivo externo. Los elementos de datos codificados del grupo necesario se pueden adquirir fácilmente, por lo que es posible reducir la carga de procesamiento.

[0037] También, en la presente tecnología, por ejemplo, la información de relación de correspondencia de flujo que indica qué flujo de audio incluye cada uno de los elementos de datos codificados de la pluralidad de grupos se inserta además en la capa del contenedor y/o en la capa de flujo de audio. La unidad de procesamiento puede adquirir selectivamente los elementos de datos codificados del grupo predeterminado a partir del número predeterminado de flujos de audio en función de la información de relación de correspondencia de flujo, además de la información de atributos. En este caso, los flujos de audio que incluyen los elementos de datos codificados del grupo predeterminado se pueden reconocer fácilmente, por lo que es posible reducir la carga de procesamiento.

[0038] Efectos ventajosos de la invención

[0039] Según la presente tecnología, en caso de que se transmita una pluralidad de tipos de elementos de datos de audio, se puede reducir la carga de procesamiento en el lado de recepción. Cabe destacar que los efectos descritos en la presente memoria descriptiva son meramente ilustrativos y no son limitativos, y podría haber efectos añadidos.Breve descripción de los dibujos

[0040] [Figura 1] La Figura 1 es un diagrama de bloques que muestra un ejemplo de configuración de un sistema de transmisión/recepción como una realización.

[0041] [Figura 2] La Figura 2 es un diagrama que muestra una estructura de una trama de audio (1024 muestras) en elementos de datos de transmisión de audio 3D.

[0042] [Figura 3] La Figura 3 es un diagrama que muestra un ejemplo de configuración de los elementos de datos de transmisión de audio 3D.

[0043] [Figura 4] La Figura 4 es un diagrama que muestra esquemáticamente un ejemplo de configuración de la trama de audio en caso de que los elementos de datos de transmisión de audio 3D se transmitan mediante un flujo y múltiples flujos.

[0044] [Figura 5] La Figura 5 es un diagrama que muestra un ejemplo de división de grupos en caso de que los elementos de datos de transmisión de audio 3D se transmitan mediante dos flujos.

[0045] [Figura 6] La Figura 6 es un diagrama que muestra una relación de correspondencia o similar entre un grupo y un flujo en el ejemplo de división de grupos (dos divisiones).

[0046] [Figura 7] La Figura 7 es un diagrama que muestra un ejemplo de división de grupos en caso de que los elementos de datos de transmisión de audio 3D se transmitan mediante dos flujos.

[0047] [Figura 8] La Figura 8 es un diagrama que muestra una relación de correspondencia o similar entre un grupo y un flujo en el ejemplo de división de grupos (dos divisiones).

[0048] [Figura 9] La Figura 9 es un diagrama de bloques que muestra un ejemplo de configuración de una unidad de generación de flujo incluida en un transmisor de servicios.

[0049] [Figura 10] La Figura 10 es un diagrama que muestra un ejemplo de configuración de un descriptor de configuración de flujo de audio 3D.

[0050] [Figura 11] La Figura 11 muestra el contenido de la información principal en el ejemplo de configuración del descriptor de configuración de flujo de audio 3D.

[0051] [Figura 12] La Figura 12 es un diagrama que muestra los tipos de contenido definidos en “ContentKind”.

[0052] [Figura 13] La Figura 13 es un diagrama que muestra un ejemplo de configuración de un descriptor de ID de flujo de audio 3D y el contenido de la información principal en el ejemplo de configuración.

[0053] [Figura 14] La Figura 14 es un diagrama que muestra un ejemplo de configuración de un flujo de transporte.

[0054] [Figura 15] La Figura 15 es un diagrama de bloques que muestra un ejemplo de configuración de un receptor de servicios.

[0055] [Figura 16] La Figura 16 es un diagrama que muestra un ejemplo de un flujo de audio recibido.

[0056] [Figura 17] La Figura 17 es un diagrama que muestra esquemáticamente el procesamiento de decodificación en caso de que la información del descriptor no esté presente dentro del flujo de audio.

[0057] [Figura 18] La Figura 18 es un diagrama que muestra un ejemplo de configuración de una unidad de acceso de audio (trama de audio) del flujo de audio en caso de que la información del descriptor no esté presente dentro del flujo de audio.

[0058] [Figura 19] La Figura 19 es un diagrama que muestra esquemáticamente el procesamiento de decodificación en caso de que la información del descriptor esté presente dentro del flujo de audio.

[0059] [Figura 20] La Figura 20 es un diagrama que muestra un ejemplo de configuración de una unidad de acceso de audio (trama de audio) del flujo de audio en caso de que la información del descriptor esté presente dentro del flujo de audio.

[0060] [Figura 21] La Figura 21 es un diagrama que muestra otro ejemplo de configuración de una unidad de acceso de audio (trama de audio) del flujo de audio en caso de que la información del descriptor esté presente dentro del flujo de audio.

[0061] [Figura 22] La Figura 22 es un diagrama de flujo (1/2) que muestra un ejemplo de procesamiento de control de decodificación de audio de una CPU en el receptor de servicios.

[0062] [Figura 23] La Figura 23 es un diagrama de flujo (2/2) que muestra el ejemplo de procesamiento de control de decodificación de audio de la CPU en el receptor de servicios.

[0063] [Figura 24] La Figura 24 es un diagrama de bloques que muestra otro ejemplo de configuración del receptor de servicios.

[0064] Modo(s) para llevar a cabo la invención

[0065] De aquí en adelante, se describirán una realización de la presente descripción con referencia a los dibujos. La descripción se realizará en el siguiente orden.

[0066] 1. Realización

[0067] 2. Realización alternativa

[0068] <1. Realización>

[0069] [Ejemplo de configuración del sistema de transmisión/recepción]

[0070] La Figura 1 muestra un ejemplo de configuración de un sistema 10 de transmisión/recepción, como una realización. El sistema 10 de transmisión/recepción incluye un transmisor 100 de servicios y un receptor 200 de servicios. El transmisor 100 de servicios transmite un flujo de transporte TS en una onda de difusión o un paquete de red. El flujo de transporte TS tiene un flujo de vídeo y un número predeterminado, es decir, uno o más flujos de audio que incluyen elementos de datos codificados de una pluralidad de grupos.

[0071] La Figura 2 muestra una estructura de una trama de audio (1024 muestras) en los elementos de datos de transmisión de audio 3D gestionados en esta realización. La trama de audio incluye una pluralidad de paquetes de flujo de audio MPEG (paquete de flujo de audio mpeg). Cada paquete de flujo de audio MPEG incluye una cabecera (Cabecera) y una carga útil (Carga útil).

[0072] La cabecera tiene información sobre un tipo de paquete (Tipo de paquete), una etiqueta de paquete (Etiqueta de paquete), una longitud de paquete (Longitud de paquete) o similares. La información definida por el tipo de paquete en la cabecera se dispone en la carga útil. En la información de carga útil, están presentes “SINC”, correspondiente a un código de inicio de sincronización, “Trama” que son los datos reales de los elementos de datos de transmisión de audio 3D y “Config”, que indica la configuración de la “Trama”.

[0073] La “Trama” incluye el elemento de datos codificado por canal y el elemento de datos codificado por objeto que configuran los elementos de datos de transmisión de audio 3D. Aquí, el elemento de datos codificado por canal incluye elementos de datos de muestra codificados, tales como un SCE (elemento de canal único), un CPE (elemento de par de canales), un LFE (elemento de baja frecuencia) y similares. Además, el elemento de datos codificado por objeto incluye el elemento de datos de muestra codificado del SCE (elemento de canal único) y un elemento de metadatos para mapearlo y renderizarlo en un altavoz presente en cualquier posición. El elemento de metadatos se incluye como un elemento de extensión (EXT_element).

[0074] La Figura 3 muestra un ejemplo de configuración de los elementos de datos de transmisión de audio 3D. En este ejemplo, incluye un elemento de datos codificado por canal y dos elementos de datos codificados por objeto. El elemento de datos codificado por canal es un elemento de datos codificado por canal (CD) del canal 5.1 e incluye cada elemento de datos de muestra codificado de SCE1, CPE1.1, CPE1.2 y LFE1.

[0075] Los dos elementos de datos codificados por objeto son elementos de datos codificados de un objeto de audio inmersivo (IAO) y un objeto de diálogo de voz (SDO). El elemento de datos codificado por objeto de audio inmersivo es el elemento de datos codificado por objeto para un sonido inmersivo e incluye un elemento de datos de muestra codificado SCE2 y un elemento de metadatos EXE_EL (Metadatos de objeto) 2 para mapearlo y renderizarlo en un altavoz presente en cualquier posición.

[0076] El elemento de datos codificado por objeto del diálogo de voz es el elemento de datos codificado por objeto para el lenguaje hablado. En este ejemplo, está presente el elemento de datos codificado por objeto de diálogo de voz correspondiente a cada uno de los lenguajes primero y segundo. El elemento de datos codificado por objeto del diálogo de voz correspondiente al primer lenguaje incluye un elemento de datos de muestra codificado SCE3 y un elemento de metadatos EXE_EI (Metadatos de objeto) 3 para mapearlo y renderizarlo en un altavoz presente en cualquier posición. También, el elemento de datos codificado por objeto del diálogo de voz correspondiente al segundo lenguaje incluye un elemento de datos de muestra codificado SCE4, un elemento de metadatos EXE_EI (Metadatos de objeto) 4 para mapearlo y renderizarlo en un altavoz presente en cualquier posición.

[0077] Los elementos de datos codificados se clasifican según el concepto de grupo (Grupo) en función del tipo. En el ejemplo mostrado, el elemento de datos de canal codificado del canal 5.1 se clasifica como Grupo 1, el elemento de datos codificado por objeto de audio inmersivo se clasifica como Grupo 2, el elemento de datos codificado por objeto del diálogo de voz, según el primer lenguaje, se clasifica como Grupo 3 y el elemento de datos codificado por objeto del diálogo de voz según el segundo lenguaje, se clasifica como Grupo 4.

[0078] También, lo seleccionado entre los grupos en el lado de recepción se registra como un grupo de conmutación (Grupo SW) y se codifica. Además, los grupos se agrupan como un grupo preestablecido (Grupo preestablecido), por lo que es posible la regeneración correspondiente a un caso de uso. En el ejemplo mostrado, el Grupo 1, el Grupo 2 y el Grupo 3 se agrupan como un Grupo 1 preestablecido, y el Grupo 1, el Grupo 2 y el Grupo 4 se agrupan como un Grupo 2 preestablecido.

[0079] Volviendo a la Figura 1, el transmisor 100 de servicios transmite los elementos de datos de transmisión de audio 3D que incluyen los elementos de datos codificados de la pluralidad de grupos mediante un flujo o múltiples flujos (Flujo múltiple), como se ha descrito anteriormente.

[0080] La Figura 4(a) muestra esquemáticamente un ejemplo de configuración en caso de que los elementos de datos de transmisión de audio 3D de la Figura 3 se transmitan mediante un flujo (flujo principal). En este caso, el único flujo incluye el elemento de datos codificado por canal (CD), el elemento de datos codificado por objeto de audio inmersivo (IAO) y el elemento de datos codificado por objeto del diálogo de voz (SDO) junto con “SINC” y “Config”.

[0081] La Figura 4(b) muestra esquemáticamente un ejemplo de configuración en caso de que los elementos de datos de transmisión de audio 3D de la Figura 3 se transmitan mediante múltiples flujos, en esta memoria, dos flujos. En este caso, el flujo principal incluye el elemento de datos codificado por canal (CD) y el elemento de datos codificado por objeto de audio inmersivo (IAO) junto con “SYNC” y “Config”. También, el subflujo incluye el elemento de datos codificado por objeto del diálogo de voz (SDO) junto con “SYNC” y “Config”.

[0082] La Figura 5 muestra un ejemplo de división de grupos en caso de que los elementos de datos de transmisión de audio 3D de la Figura 3 se transmitan mediante dos flujos. En este caso, el flujo principal incluye el elemento de datos codificado por canal (CD) clasificado como Grupo 1 y el elemento de datos codificado por objeto de audio inmersivo (IAO) clasificado como Grupo 2. También, el subflujo incluye el elemento de datos codificado por objeto de diálogo de voz (SDO) según el primer lenguaje clasificado como Grupo 3, y el elemento de datos codificado por objeto de diálogo de voz (SDO) según el segundo lenguaje clasificado como Grupo 4.

[0083] La Figura 6 muestra una relación de correspondencia o similar entre un grupo y un flujo en el ejemplo de división de grupos (dos divisiones) de la Figura 5. Aquí, un ID de grupo (ID de grupo) es un identificador para identificar un grupo. Un atributo (atributo) muestra un atributo de un elemento de datos codificado de cada grupo. Un ID de grupo de conmutación (ID de grupo de conmutación) es un identificador para identificar un grupo de conmutación. Un ID de grupo preestablecido (ID de grupo preestablecido) es un identificador para identificar un grupo preestablecido. Un ID de flujo (ID de subflujo) es un identificador para identificar un subflujo. Un tipo (Tipo) muestra los tipos de contenido de cada grupo.

[0084] La relación de correspondencia ilustrada muestra que el elemento de datos codificado que pertenece al Grupo 1 es el elemento de datos codificado por canal, no constituye el grupo de conmutación y está incluido en el flujo 1. También, la relación de correspondencia ilustrada muestra que el elemento de datos codificado que pertenece al Grupo 2 es el elemento de datos codificado por objeto para sonido inmersivo (elemento de datos codificado por objeto de audio inmersivo), no constituye el grupo de conmutación y está incluido en el flujo 1.

[0085] También, la relación de correspondencia ilustrada muestra que el elemento de datos codificado que pertenece al grupo 3 es el elemento de datos codificado por objeto para el lenguaje hablado (elemento de datos codificado por objeto de diálogo de voz) según el primer lenguaje, constituye el Grupo 1 de conmutación y está incluido en el flujo 2. También, la relación de correspondencia ilustrada muestra que el elemento de datos codificado que pertenece al Grupo 4 es el elemento de datos codificado por objeto para el lenguaje hablado (elemento de datos codificado por objeto del diálogo de voz) según el segundo lenguaje, constituye el Grupo 1 de conmutación y está incluido en el flujo 2.

[0086] También, la relación de correspondencia ilustrada muestra que el Grupo 1 preestablecido incluye el Grupo 1, el Grupo 2 y el Grupo 3. Además, la relación de correspondencia ilustrada muestra que el Grupo 2 preestablecido incluye el Grupo 1, el Grupo 2 y el Grupo 4.

[0087] La Figura 7 muestra un ejemplo de división de grupos en caso de que los elementos de datos de transmisión de audio 3D se transmitan mediante dos flujos. En este caso, el flujo principal incluye el elemento de datos codificado por canal (CD) clasificado como Grupo 1 y el elemento de datos codificado por objeto de audio inmersivo (IAO) clasificado como Grupo 2.

[0088] También, el flujo principal incluye un elemento de datos codificado por objeto SAOC (codificación de objetos de audio espacial) clasificado como Grupo 5, y un elemento de datos codificado por objeto HOA (Ambisiónica de orden superior) clasificado como Grupo 6. El elemento de datos codificado por objeto SAOC es un elemento de datos que utiliza las características de los elementos de datos de objeto y realiza una mayor compresión de la codificación de objeto. El elemento de datos codificado por objeto HOA tiene como objetivo la reproducción de una dirección del sonido desde la dirección del sonido entrante de un micrófono hasta una posición auditiva mediante una tecnología en la que el sonido 3D se gestiona como un campo sonoro completo.

[0089] El subflujo incluye el elemento de datos codificado por objeto de diálogo de voz (SDO) según el primer lenguaje, clasificado como Grupo 3, y el elemento de datos codificado por objeto de diálogo de voz (SDO) según el segundo lenguaje, clasificado como Grupo 4. También, el subflujo incluye un primer elemento de datos codificado de descripción de audio, clasificado como Grupo 7, y un segundo elemento de datos codificado de descripción de audio, clasificado como Grupo 8. El elemento de datos codificado de descripción de audio sirve para explicar el contenido (principalmente un vídeo) con una voz y para transmitirlo por separado de un sonido normal, principalmente para personas con discapacidad visual.

[0090] La Figura 8 muestra la relación de correspondencia o similar entre el grupo y el flujo en el ejemplo de división de grupos (dos divisiones) de la Figura 7. La relación de correspondencia ilustrada muestra que el elemento de datos codificado que pertenece al Grupo 1 es el elemento de datos codificado por canal, no constituye el grupo de conmutación y está incluido en el flujo 1. También, la relación de correspondencia ilustrada muestra que el elemento de datos codificado que pertenece al Grupo 2 es el elemento de datos codificado por objeto para sonido inmersivo (elemento de datos codificado por objeto de audio inmersivo), no constituye el grupo de conmutación y está incluido en el flujo 1.

[0091] También, la relación de correspondencia ilustrada muestra que el elemento de datos codificado que pertenece al grupo 3 es el elemento de datos codificado por objeto para el lenguaje hablado (elemento de datos codificado por objeto de diálogo de voz) según el primer lenguaje, constituye el Grupo 1 de conmutación y está incluido en el flujo 2. También, la relación de correspondencia ilustrada muestra que el elemento de datos codificado que pertenece al Grupo 4 es el elemento de datos codificado por objeto para el lenguaje hablado (elemento de datos codificado por objeto del diálogo de voz) según el segundo lenguaje, constituye el Grupo 1 de conmutación y está incluido en el flujo 2.

[0092] También, la relación de correspondencia ilustrada muestra que el elemento de datos codificado que pertenece al Grupo 5 es el elemento de datos codificado por objeto SAOC, constituye el grupo de conmutación 2 y está incluido en el flujo 1. También, la relación de correspondencia ilustrada muestra que el elemento de datos codificado que pertenece al Grupo 6 es el elemento de datos codificado por objeto HOA, constituye el grupo de conmutación 2 y está incluido en el flujo 1.

[0093] También, la relación de correspondencia ilustrada muestra que el elemento de datos codificado que pertenece al Grupo 7 es un primer elemento de datos codificado por objeto de descripción de audio, constituye el grupo de conmutación 3 y está incluido en el flujo 2. También, la relación de correspondencia ilustrada muestra que el elemento de datos codificado que pertenece al Grupo 8 es un segundo elemento de datos codificado por objeto de descripción de audio, constituye el grupo de conmutación 3 y está incluido en el flujo 2.

[0094] También, la relación de correspondencia ilustrada muestra que el Grupo 1 preestablecido incluye el Grupo 1, el Grupo 2, el Grupo 3 y el Grupo 7. Además, la relación de correspondencia ilustrada muestra que el Grupo 2 preestablecido incluye el Grupo 1, el Grupo 2, el Grupo 4 y el Grupo 8.

[0095] Volviendo a la Figura 1, el transmisor 100 de servicios inserta información de atributos que indica los atributos respectivos de los elementos de datos codificados de la pluralidad de grupos incluidos en los elementos de datos de transmisión de audio 3D en una capa del contenedor. También, el transmisor 100 de servicios inserta la información de relación de correspondencia de flujo que indica qué flujo de audio incluye cada uno de los elementos de datos codificados de la pluralidad de grupos en la capa del contenedor. En esta realización, la información de relación de correspondencia de flujo se considera información que indica una relación de correspondencia, por ejemplo, entre el ID de grupo y el identificador de flujo.

[0096] El transmisor 100 de servicios inserta como descriptores la información de atributos y la información de relación de correspondencia de flujo en el bucle de flujo elemental de audio correspondiente a uno o más flujos de audio de entre un número predeterminado de flujos de audio presentes en una tabla de mapas de programas (PMT: Tabla de mapas de programas), por ejemplo.

[0097] También, el transmisor 100 de servicios inserta información del identificador de flujo que indica los identificadores de flujo respectivos de un número predeterminado de flujos de audio en la capa del contenedor. El transmisor 100 de servicios inserta como descriptor la información del identificador de flujo en el bucle de flujo elemental de audio correspondiente al número predeterminado respectivo de flujos de audio presentes en la tabla de mapas de programas (PMT: Tabla de mapas de programas), por ejemplo.

[0098] También, el transmisor 100 de servicios inserta la información de atributos que indica los atributos respectivos de los elementos de datos codificados de la pluralidad de grupos incluidos en los elementos de datos de transmisión de audio 3D en una capa de flujo de audio. También, el transmisor 100 de servicios inserta la información de relación de correspondencia de flujo que indica qué flujo de audio incluye cada uno de los elementos de datos codificados de la pluralidad de grupos en la capa de flujo de audio. El transmisor 100 de servicios inserta la información de atributos y la información de relación de correspondencia de flujo en una carga útil PES de un paquete PES de uno o más flujos de audio, por ejemplo, de entre el número predeterminado de flujos de audio.

[0099] También, el transmisor 100 de servicios inserta la información del identificador de flujo que indica el identificador de flujos respectivo del número predeterminado de flujos de audio en la capa de flujo de audio. El transmisor 100 de servicios inserta la información del identificador de flujo en la carga útil PES de los respectivos paquetes PES del número predeterminado de flujos de audio, por ejemplo.

[0100] El transmisor 100 de servicios inserta la información en la capa de flujo de audio insertando “Desc”, es decir, la información del descriptor entre “SYNC” y “Config”, como se muestra en las Figuras 4(a), (b).

[0101] Aunque esta realización ilustra que cada información (la información de atributos, la información de relación de correspondencia de flujo, la información del identificador de flujo) se inserta tanto en la capa del contenedor como en la capa de flujo de audio como se ha descrito anteriormente, se concibe que cada información se inserte solo en la capa del contenedor o solo en la capa de flujo de audio.

[0102] El receptor 200 de servicios recibe el flujo de transporte TS transmitido en la onda de difusión o el paquete de red desde el transmisor 100 de servicios. El flujo de transporte TS incluye el número predeterminado de flujos de audio que incluyen los elementos de datos codificados de la pluralidad de grupos que configuran los elementos de datos de transmisión de audio 3D además del flujo de vídeo, como se ha descrito anteriormente.

[0103] La información de atributos que indica los atributos respectivos de los elementos de datos codificados de la pluralidad de grupos incluidos en los elementos de datos de transmisión de audio 3D se inserta en la capa del contenedor y/o la capa de flujo de audio, y se inserta la información de relación de correspondencia de flujo que indica qué flujo de audio incluye cada uno de los elementos de datos codificados de la pluralidad de grupos.

[0104] El receptor 200 de servicios realiza un procesamiento de decodificación selectiva en los flujos de audio que incluyen los elementos de datos codificados del grupo con los atributos adaptados para la configuración de altavoz y la información de selección de usuario, en función de la información de atributos y la información de relación de correspondencia de flujo, y adquiere una salida de audio del audio 3D.

[0105] [Transmisor de unidad de servicios de generación de flujo]

[0106] La Figura 9 muestra un ejemplo de configuración de una unidad 110 de generación de flujos incluida en un transmisor 100 de servicios. La unidad 110 de generación de flujos incluye un codificador 112 de vídeo, un codificador 113 de audio y un multiplexor 114. Aquí, el elemento de datos de transmisión de audio incluye un elemento de datos de canal codificado y dos elementos de datos codificados por objeto, de manera ilustrativa como se muestra en la Figura 3. El codificador 112 de vídeo introduce un elemento de datos de vídeo SV, codifica el elemento de datos de vídeo SV y genera un flujo de vídeo (flujo elemental de vídeo). El codificador 113 de audio introduce como elemento de datos de audio SA, elementos de datos de objeto de diálogo de voz y audio inmersivo junto con el elemento de datos de canal. El codificador 113 de audio codifica el elemento de datos de audio SA y adquiere los elementos de datos de transmisión de audio 3D. Los elementos de datos de transmisión de audio 3D incluyen el elemento de datos codificado por canal (CD), el elemento de datos codificado por objeto de audio inmersivo (IAO) y el elemento de datos codificado por objeto de diálogo de voz (SDO), como se muestra en la Figura 3.

[0107] El codificador 113 de audio genera uno o más flujos de audio (flujos elementales de audio) que incluyen los elementos de datos codificados de una pluralidad de grupos, en esta memoria, cuatro grupos (véanse las Figuras 4(a), (b)). En ese momento, el codificador 113 de audio inserta la información del descriptor (“Desc”) que incluye la información de atributos, la información de relación de correspondencia de flujo y la información del identificador de flujo entre “SYNC” y “Config”, como se ha descrito anteriormente.

[0108] El multiplexor 114 empaqueta en PES cada uno de los flujos de vídeo emitidos desde el codificador 112 de vídeo y el número predeterminado de flujos de audio emitidos desde el codificador 113 de audio, además transporta los flujos de audio empaquetados para su multiplexación y adquiere el flujo de transporte TS como un flujo multiplexado. También, el multiplexor 114 inserta la información de atributos que indica los atributos respectivos de los elementos de datos codificados de la pluralidad de grupos y la información de relación de correspondencia de flujo que indica qué flujo de audio incluye cada uno de los elementos de datos codificados de la pluralidad de grupos en la tabla de mapas de programas (PMT). El multiplexor 114 inserta la información en un bucle de flujo elemental de audio correspondiente a al menos uno o más de los flujos de audio de entre el número predeterminado de flujos de audio utilizando un descriptor de configuración de flujo de audio 3D (3DAudio_stream_config_descriptor). Los detalles del descriptor se describirán más adelante.

[0109] Además, el multiplexor 114 inserta la información del identificador de flujo que indica los identificadores de flujo respectivos del número predeterminado de flujos de audio en la tabla de mapas de programas (PMT). El multiplexor 114 inserta la información en el bucle de flujo elemental de audio correspondiente al número predeterminado respectivo de flujos de audio utilizando el descriptor de ID de flujo de audio 3D (3DAudio_substreamID_descriptor). Los detalles del descriptor se describirán más adelante.

[0110] Se describe brevemente el funcionamiento de la unidad 110 de generación de flujos mostrada en la Figura 9. Se suministra un elemento de datos de vídeo al codificador 112 de vídeo. En el codificador 112 de vídeo, se codifica un elemento de datos de vídeo SV y se genera un flujo de vídeo que incluye el elemento de datos de vídeo codificado. El flujo de vídeo se suministra al multiplexor 114.

[0111] El elemento de datos de audio SA se suministra al codificador 113 de audio. El elemento de datos de audio SA incluye los elementos de datos de objeto del elemento de datos de canal, el audio inmersivo y el diálogo de voz. En el codificador 113 de audio, se codifica el elemento de datos de audio SA y se adquieren los elementos de datos de transmisión de audio 3D.

[0112] Los elementos de datos de transmisión de audio 3D incluyen el elemento de datos codificado por objeto de audio inmersivo (IAO) y el elemento de datos codificado por objeto de diálogo de voz (SDO) además del elemento de datos codificado por canal (CD) (véase la Figura 3). En el codificador 113 de audio, se generan uno o más flujos de audio que incluyen los elementos de datos codificados de cuatro grupos (véanse las Figuras 4(a), (b)).

[0113] En este momento, el codificador 113 de audio inserta la información del descriptor (“Desc”) que incluye la información de atributos, la información de relación de correspondencia de flujo y la información del identificador de flujo como se ha descrito anteriormente entre “SINC” y “Config”.

[0114] El flujo de vídeo generado en el codificador 112 de vídeo se suministra al multiplexor 114. También, el flujo de audio generado en el codificador 113 de audio se suministra al multiplexor 114. En el multiplexor 114, el flujo suministrado desde cada codificador se empaqueta en PES y se transporta empaquetado para la multiplexación, y el flujo de transporte TS se adquiere como flujo multiplexado.

[0115] También, en el multiplexor 114, se inserta un descriptor de configuración de flujo de audio 3D en el bucle de flujo elemental de audio correspondiente a al menos uno o más flujos de audio de entre, por ejemplo, el número predeterminado de flujos de audio. El descriptor incluye la información de atributos que indica los atributos respectivos de los elementos de datos codificados de la pluralidad de grupos y la información de relación de correspondencia de flujo que indica qué flujo de audio incluye cada uno de los elementos de datos codificados de la pluralidad de grupos. También, en el descriptor 114, el descriptor de ID de flujo de audio 3D se inserta en el bucle de flujo elemental de audio correspondiente al número predeterminado respectivo de flujos de audio. El descriptor incluye la información del identificador de flujo que indica los identificadores de flujo respectivos del número predeterminado de flujos de audio.

[0116] [Detalles del descriptor de configuración de flujo de audio 3D]

[0117] La Figura 10 muestra un ejemplo de configuración (Sintaxis) del descriptor de configuración de flujo de audio 3D (3Daudio_stream_config_descriptor). Además, la Figura 11 muestra el contenido (Semántica) de la información principal en el ejemplo de configuración.

[0118] Un campo “descriptor_tag” de 8 bits indica un tipo de descriptor. Aquí, muestra que es un descriptor de configuración de flujo de audio 3D. Un campo “descriptor_length” de 8 bits indica la longitud (tamaño) del descriptor y muestra un número posterior de bytes como longitud del descriptor.

[0119] Un campo “NumOfGroups, N” de 8 bits indica el número de grupos. Un campo “NumOfPresetGroups, P” de 8 bits indica el número de grupos preestablecidos. Para el número de grupos, se repite un campo “groupID” de 8 bits, un campo “attribute_of_groupID” de 8 bits, un campo “SwitchGroupID” de 8 bits y un campo “audio_streamID” de 8 bits. El campo “groupID” indica un identificador del grupo. El campo “attribute_of_groupID” indica un atributo en cuestión del elemento de datos codificado del grupo. El campo “SwitchGroupID” es un identificador que indica el grupo de conmutación al que pertenece un grupo en cuestión. “0” indica que no pertenece a ningún grupo de conmutación. Un valor distinto de “0” indica el grupo de conmutación al que pertenece. Un campo “contentKind” de 8 bits indica los tipos de contenido del grupo. “Audio_streamID” es un identificador que indica un flujo de audio que incluye el grupo en cuestión. La Figura 12 muestra los tipos de contenido definidos en “contentKind”.

[0120] Para el número de grupos preestablecidos, se repite un campo “presetGroupID” de 8 bits y un campo “NumofGroups_in_preset, R” de 8 bits. El campo “presetGroupID” es un identificador que indica una agrupación en la que el grupo está preestablecido. El campo “NumOfGroups_in_preset, R” indica el número de grupos que pertenecen al grupo preestablecido. En cada grupo preestablecido, para el número de grupos que pertenecen al mismo, se repite un campo “groupID” de 8 bits y se muestran los grupos que pertenecen al grupo preestablecido. El descriptor puede disponerse bajo un descriptor extendido.

[0121] [Detalles del descriptor de ID de flujo de audio 3D]

[0122] La Figura 13(a) muestra un ejemplo de configuración (Sintaxis) del descriptor de ID de flujo de audio 3D (3DAudio_substreamID_descriptor). La Figura 13(b) muestra el contenido (Semántica) de la información principal en el ejemplo de configuración.

[0123] Un campo “descriptor_tag” de 8 bits indica un tipo de descriptor. Aquí, muestra que es el descriptor de ID de flujo de audio 3D. Un campo “descriptor_length” de 8 bits indica la longitud (tamaño) del descriptor e indica un número posterior de bytes como longitud del descriptor. Un campo “audio_streamID” de 8 bits indica un identificador del flujo de audio. El descriptor puede disponerse bajo un descriptor extendido.

[0124] [Configuración del flujo de transporte TS]

[0125] La Figura 14 muestra un ejemplo de configuración del flujo de transporte TS. El ejemplo de configuración corresponde al caso en el que los elementos de datos de transmisión de audio 3D se transmiten mediante dos flujos (véase la Figura 5). En el ejemplo de configuración, existe un paquete PES de flujo de vídeo “PES de vídeo” identificado por PID1. También, en el ejemplo de configuración, existen dos paquetes PES de flujo de audio “PES de audio” identificados por PID2 y PID3, respectivamente. El paquete PES incluye una cabecera PES (PES_header) y una carga útil PES (PES_payload). En la cabecera PES, se insertan las marcas de tiempo DTS y PTS. Tras la multiplexación, las marcas de tiempo PID2 y PID3 se correlacionan para proporcionar precisión, por lo que es posible garantizar la sincronización entre ellas en todo un sistema.

[0126] Aquí, un paquete PES de flujo de audio “PES de audio” identificado por el PID2 incluye el elemento de datos codificado por canal (CD), clasificado como Grupo 1, y el elemento de datos codificado por objeto de audio inmersivo (IAO), clasificado como Grupo 2. También, un paquete PES de flujo de audio “PES de audio” identificado por el PID3 incluye el elemento de datos codificado por objeto de diálogo de voz (SDO) según el primer lenguaje, clasificado como Grupo 3, y el elemento de datos codificado por objeto de diálogo de voz (SDO) según el segundo lenguaje, clasificado como Grupo 4.

[0127] También, el flujo de transporte TS incluye una PMT (tabla de mapas de programas) como PSI (información específica del programa). La PSI es información que describe a qué programa pertenece cada flujo elemental incluido en el flujo de transporte. En la PMT está presente un bucle de programa (bucle de programa) que describe la información sobre un programa completo.

[0128] También, en la PMT está presente un bucle de flujo elemental que tiene información sobre cada flujo elemental. En el ejemplo de configuración, está presente un bucle de flujo elemental de vídeo (bucle ES de vídeo) correspondiente al flujo de vídeo, y está presente un bucle de flujo elemental de audio (bucle ES de audio) correspondiente a dos flujos de audio.

[0129] En el bucle de flujo elemental de vídeo (bucle ES de vídeo), se dispone información sobre un tipo de flujo, un PID (identificador de paquete), etc. correspondiente al flujo de vídeo, y también se dispone un descriptor que describe la información relacionada con el flujo de vídeo. Un valor del flujo de vídeo “Stream_type” se establece en “0x24”, y la información de PID indica el PID1 añadido al paquete PES de flujo de vídeo “PES de vídeo”, como se ha descrito anteriormente. A modo de uno de los descriptores, se dispone un descriptor HEVC.

[0130] En cada bucle de flujo elemental de audio (bucle ES de audio), se dispone información sobre el tipo de flujo, el PID (identificador de paquete), etc. correspondiente al flujo de audio, y también se dispone un descriptor que describe la información relacionada con el flujo de audio. El PID2 es un flujo de audio principal, y el valor de “stream_type” se establece en “0x2C”, y la información del PID indica el PID añadido al paquete PES de flujo de audio “PES de audio”, tal como se ha descrito anteriormente. También, el PID3 es un subflujo de audio, y el valor de “Stream_type” se establece en “0x2D”, y la información de PID indica el PID añadido al paquete PES de flujo de audio “PES de audio”, como se ha descrito anteriormente.

[0131] También, en cada bucle de flujo elemental de audio (bucle ES de audio), se disponen tanto el descriptor de configuración de flujo de audio 3D como el descriptor ID de flujo de audio 3D descritos anteriormente.

[0132] También, la información del descriptor se inserta en la carga útil PES del paquete PES de cada flujo elemental de audio. La información del descriptor es el “Desc” insertado entre “SINC” y “Config”, como se describió anteriormente (véase la Figura 4). Suponiendo que la información incluida en el descriptor de configuración del flujo de audio 3D se denote D1, y la información incluida en el descriptor de ID del flujo de audio 3D se denote D2, la información del descriptor incluye la información “D1+D2”.

[0133] [Ejemplo de configuración del receptor de servicios]

[0134] La Figura 15 muestra un ejemplo de configuración del receptor 200 de servicios. El receptor 200 de servicios incluye una unidad receptora 201, un demultiplexor 202, un decodificador 203 de vídeo, un circuito 204 de procesamiento de vídeo, un circuito 205 de accionamiento del panel y un panel 206 de visualización. También, el receptor 200 de servicios incluye las memorias 211-1 a 211-N intermedias de multiplexación, un combinador 212, un decodificador 213 de audio 3D, un circuito 214 de procesamiento de salida de sonido y un sistema 215 de altavoces. También, el receptor 200 de servicios incluye una CPU 221, una flash ROM 222, una DRAM 223, un bus interno 224, una unidad receptora 225 de control remoto y un transmisor 226 de control remoto.

[0135] La CPU 221 controla el funcionamiento de cada unidad en el receptor 200 de servicios. La flash ROM 222 almacena el software de control y guarda los datos. La DRAM 223 configura un área de trabajo de la CPU 221. La CPU 221 descomprime el software o los datos leídos desde la flash ROM 222 en la DRAM 223 para iniciar el software y controla cada unidad en el receptor 200 de servicios.

[0136] La unidad receptora 225 de control remoto recibe una señal de control remoto (código de control remoto) transmitida desde el transmisor 226 de control remoto y se la suministra a la CPU 221. La CPU 221 controla cada unidad en el receptor 200 de servicios en función del código de control remoto. La CPU 221, la flash ROM 222 y la DRAM 223 están conectadas al bus interno 224.

[0137] La unidad receptora 201 recibe el flujo de transporte TS transmitido en la onda de difusión o el paquete de red desde el transmisor 100 de servicios. El flujo de transporte TS incluye el número predeterminado de flujos de audio que incluyen los elementos de datos codificados de la pluralidad de grupos que configuran los elementos de datos de transmisión de audio 3D, además del flujo de vídeo.

[0138] La Figura 16 muestra un ejemplo del flujo de audio recibido. La Figura 16(a) muestra un ejemplo de un flujo (flujo principal). El flujo incluye el elemento de datos codificado por canal (CD), el elemento de datos codificado por objeto de audio inmersivo (IAO), el elemento de datos codificado por objeto del diálogo de voz (SDO) junto con “SINC” y “Config”. El flujo está identificado por el PID2.

[0139] También, entre “SINC” y “Config”, se incluye la información del descriptor (“Desc”). En la información del descriptor, se inserta la información de atributos que indica los atributos respectivos de los elementos de datos codificados de la pluralidad de grupos, la información de relación de correspondencia de flujo que indica qué flujo de audio incluye cada uno de los elementos de datos codificados de la pluralidad de grupos y la información del identificador de flujo que indica el identificador del propio flujo.

[0140] La Figura 16(b) muestra un ejemplo de dos flujos. El flujo principal identificado por el PID2 incluye el elemento de datos codificado por canal (CD) y el elemento de datos codificado por objeto de audio inmersivo (IAO) junto con “SINC” y “Config”. También, el subflujo identificado por el PID3 incluye el elemento de datos codificado por objeto del diálogo de voz (SDO) junto con “SINC” y “Config”.

[0141] También, cada flujo incluye la información del descriptor (“Desc”) entre “SINC” y “Config”. En la información del descriptor, se inserta la información de atributos que indica los atributos respectivos de los elementos de datos codificados de la pluralidad de grupos, la información de relación de correspondencia de flujo que indica qué flujo de audio incluye cada uno de los elementos de datos codificados de la pluralidad de grupos y la información del identificador de flujo que indica el identificador del propio flujo.

[0142] El demultiplexor 202 extrae un paquete de flujo de vídeo del flujo de transporte TS y lo transmite al decodificador 203 de vídeo. El decodificador 203 de vídeo reconfigura el flujo de vídeo a partir del paquete de vídeo extraído en el demultiplexor 202 y realiza el procesamiento de decodificación para adquirir elementos de datos de vídeo sin comprimir.

[0143] El circuito 204 de procesamiento de vídeo realiza un procesamiento de escalado, un procesamiento de ajuste de la calidad de la imagen o similares en los elementos de datos de vídeo adquiridos en el decodificador 203 de vídeo, adquiriendo de este modo los elementos de datos de vídeo para su visualización. El circuito 205 de accionamiento del panel acciona el panel 206 de visualización en función de los elementos de datos de imagen para su visualización adquiridos en el circuito 204 de procesamiento de vídeo. El panel 206 de visualización incluye, por ejemplo, una pantalla LCD (pantalla de cristal líquido), una pantalla EL orgánica (pantalla de electroluminiscencia orgánica) o similares.

[0144] También, el demultiplexor 202 extrae información diversa, tal como la información del descriptor, a partir del flujo de transporte TS y se la transmite a la CPU 221. La información diversa también incluye la información descrita anteriormente sobre el descriptor de configuración de flujo de audio 3D (3DAudio_stream_config_descriptor) y el descriptor de ID de flujo de audio 3D (3Daudio_substreamID_descriptor) (véase la Figura 14).

[0145] La CPU 221 reconoce el flujo de audio que incluye los elementos de datos codificados del grupo que tiene los atributos adaptados para la configuración de altavoz y la información de selección de espectadores y audiencia (usuario) en función de la información de atributos que indica los atributos de los elementos de datos codificados de cada grupo incluidos en la información del descriptor, y la información de relación de flujo que indica qué flujo de audio incluye cada grupo.

[0146] Además, el demultiplexor 202 extrae selectivamente mediante un filtro PID controlado por la CPU 221 uno o más paquetes de flujo de audio que incluyen los elementos de datos codificados del grupo con los atributos adaptados para la configuración de altavoz y la información de selección de espectadores y audiencia (usuario) de entre el número predeterminado de flujos de audio que tiene el flujo de transporte TS.

[0147] Cada una de las memorias 211-1 a 211-N intermedias de multiplexación recibe cada flujo de audio extraído en el demultiplexor 202. Aquí, los números N de las memorias 211-1 a 211-N intermedias de multiplexación son necesarios y suficientes. En una operación real, se utilizarán los números de los flujos de audio extraídos en el demultiplexor 202. El combinador 212 lee el flujo de audio de cada trama de audio de la memoria intermedia de multiplexación, donde cada flujo de audio extraído en el demultiplexor 202 se recoge entre las memorias 211-1 a 211-N intermedias de multiplexación y lo transmite al decodificador 213 de audio 3D.

[0148] En caso de que el flujo de audio suministrado desde el combinador 212 incluya la información del descriptor (“Desc”), el decodificador 213 de audio 3D transmite la información del descriptor a la CPU 221. El decodificador 213 de audio 3D extrae selectivamente los elementos de datos codificados del grupo que tienen los atributos adaptados para la configuración de altavoz y la información de selección de espectadores y audiencia (usuario) controlada por la CPU 221, realiza el procesamiento de decodificación y adquiere el elemento de datos de audio para accionar cada altavoz del sistema 215 de altavoces.

[0149] Aquí, el elemento de datos codificado al que se aplica el procesamiento de decodificación puede tener tres patrones: que solo se incluya el elemento de datos codificado por canal, que solo se incluya el elemento de datos codificado por objeto o que se incluyan tanto el elemento de datos codificado por canal como el elemento de datos codificado por objeto.

[0150] Al decodificar el elemento de datos codificado por canal, el decodificador 213 de audio 3D realiza un procesamiento de mezcla descendente o ascendente en la configuración de altavoz del sistema 215 de altavoces, y adquiere el elemento de datos de audio para accionar cada altavoz. Además, al decodificar el elemento de datos codificado por objeto, el decodificador 213 de audio 3D calcula el renderizado del altavoz (relación de mezcla en cada altavoz) en función de la información de objeto (elemento de metadatos) y mezcla el elemento de datos de audio del objeto en el elemento de datos de audio para accionar cada altavoz según el resultado del cálculo.

[0151] El circuito 214 de procesamiento de salida de sonido realiza el procesamiento necesario, tal como conversión D/A, amplificación y similares en el elemento de datos de audio para accionar cada altavoz adquirido en el decodificador 213 de audio 3D, y lo suministra al sistema 215 de altavoces. El sistema 215 de altavoces incluye una pluralidad de altavoces que tienen una pluralidad de canales, por ejemplo, 2 canales, 5.1 canales, 7.1 canales o 22.2 canales. Se describirá brevemente el funcionamiento del receptor 200 de servicios mostrado en la Figura 15. La unidad receptora 201 recibe el flujo de transporte TS transmitido en la onda de difusión o el paquete de red desde el transmisor 100 de servicios. El flujo de transporte TS incluye el número predeterminado de flujos de audio que incluyen los elementos de datos codificados de la pluralidad de grupos que configuran los elementos de datos de transmisión de audio 3D, además del flujo de vídeo. El flujo de transporte TS se suministra al demultiplexor 202.

[0152] En el demultiplexor 202, el paquete de flujo de vídeo se extrae del flujo de transporte TS, que se suministra al decodificador 203 de vídeo. En el decodificador 203 de vídeo, el flujo de vídeo se reconfigura a partir del paquete de vídeo extraído en el demultiplexor 202, se realiza el procesamiento de decodificación y se adquieren elementos de datos de vídeo sin comprimir. Los elementos de datos de vídeo se suministran al circuito 204 de procesamiento de vídeo.

[0153] El circuito 204 de procesamiento de vídeo realiza un procesamiento de escalado, un procesamiento de ajuste de la calidad de la imagen o similares en elementos de datos de vídeo adquiridos en el decodificador 203 de vídeo, adquiriendo de este modo los elementos de datos de vídeo para su visualización. Los elementos de datos de vídeo se suministran al circuito 205 de accionamiento del panel para su visualización. El circuito 205 de accionamiento del panel acciona el panel 206 de visualización en función de los elementos de datos de imagen para su visualización. De este modo, las imágenes correspondientes a los elementos de datos de imagen para su visualización se visualizan en el panel 206 de visualización.

[0154] También, el demultiplexor 202 extrae información diversa, tal como la información del descriptor, del flujo de transporte TS, que se envía a la CPU 221. La información diversa también incluye información sobre el descriptor de configuración de flujo de audio 3D y el descriptor de ID de flujo de audio 3D. La CPU 221 reconoce el flujo de audio que incluye los elementos de datos codificados del grupo que tiene los atributos adaptados para la configuración de altavoz y la información de selección de espectadores y audiencia (usuario) en función de la información de atributos incluida en la información del descriptor y la información de relación del flujo.

[0155] Además, el demultiplexor 202 extrae selectivamente mediante el filtro PID controlado por la CPU 221 uno o más paquetes de flujo de audio que incluyen los elementos de datos codificados del grupo con los atributos adaptados para la configuración de altavoz y la información de selección de espectadores y audiencia de entre el número predeterminado de flujos de audio que tiene el flujo de transporte TS.

[0156] El flujo de audio extraído en el demultiplexor 202 se recoge en la memoria intermedia de multiplexación correspondiente de entre las memorias 211-1 a 211-N intermedias de multiplexación. En el combinador 212, el flujo de audio se lee en cada trama de audio de cada memoria intermedia de multiplexación donde se recoge el flujo de audio, y se suministra al decodificador 213 de audio 3D.

[0157] En caso de que el flujo de audio suministrado desde el combinador 212 incluya la información del descriptor (“Desc”), la información del descriptor se extrae y se transmite a la CPU 221 en el decodificador 213 de audio 3D. El decodificador 213 de audio 3D extrae selectivamente los elementos de datos codificados del grupo que tienen los atributos adaptados para la configuración de altavoz y la información de selección de espectadores y audiencia (usuario) controlada por la CPU 221, realiza el procesamiento de decodificación y adquiere el elemento de datos de audio para accionar cada altavoz del sistema 215 de altavoces.

[0158] Aquí, cuando se decodifica el elemento de datos codificado por canal, se realiza un procesamiento de mezcla descendente o ascendente en la configuración de altavoz del sistema 215 de altavoces, y se adquiere el elemento de datos de audio para accionar cada altavoz. Además, cuando se decodifica el elemento de datos codificado por objeto, el renderizado del altavoz (relación de mezcla en cada altavoz) se calcula en función de la información de objeto (elemento de metadatos), y el elemento de datos de audio del objeto se mezcla con el elemento de datos de audio para accionar cada altavoz según el resultado del cálculo.

[0159] El elemento de datos de audio para accionar cada altavoz adquirido en el decodificador 213 de audio 3D se suministra al circuito 214 de procesamiento de salida de sonido. El circuito 214 de procesamiento de salida de sonido realiza el procesamiento necesario, tal como conversión D/A, amplificación y similares en el elemento de datos de audio para accionar cada altavoz. El elemento de datos de audio se suministra después del procesamiento al sistema 215 de altavoces. De este modo, se adquiere a partir del sistema 215 de altavoces una salida de audio correspondiente a una imagen de visualización del panel 206 de visualización.

[0160] La Figura 17 muestra esquemáticamente el procesamiento de decodificación en caso de que la información del descriptor no esté presente dentro del flujo de audio. El flujo de transporte TS, que es el flujo multiplexado, se introduce en el demultiplexor 202. En el demultiplexor 202, se analiza una capa de sistema y se suministra información 1 del descriptor (información sobre el descriptor de configuración de flujo de audio 3D o el descriptor de ID de flujo de audio 3D) a la CPU 221.

[0161] En la CPU 221, el flujo de audio que incluye los elementos de datos codificados del grupo que tiene los atributos adaptados para la configuración de altavoz y la información de selección de espectadores y audiencia (usuario) se reconoce en función de la información 1 del descriptor. En el demultiplexor 202, la selección entre los flujos se realiza bajo el control de la CPU 221.

[0162] En otras palabras, en el demultiplexor 202, el filtro PID extrae selectivamente uno o más paquetes de flujo de audio que incluyen los elementos de datos codificados del grupo que tiene los atributos adaptados para la configuración de altavoz y la información de selección de espectadores y audiencia de entre el número predeterminado de flujos de audio del flujo de transporte TS. Los flujos de audio así extraídos se recogen en las memorias 211 intermedias de multiplexación (211-1 a 211-N).

[0163] El decodificador 213 de audio 3D realiza un análisis del tipo de paquete de cada flujo de audio recibido en la memoria 211 intermedia de multiplexación. A continuación, en el demultiplexor 202, se realiza la selección dentro de los flujos bajo el control de la CPU 221 en función de la información 1 del descriptor descrita anteriormente.

[0165] Específicamente, los elementos de datos codificados del grupo que tiene los atributos adaptados para la configuración de altavoz y la información de selección de espectadores y audiencia (usuario) se extraen selectivamente de cada flujo de audio como un objeto de decodificación, y se aplica el procesamiento de decodificación y el procesamiento de renderizado de mezcla aplican a los mismos, adquiriendo de este modo el elemento de datos de audio (audio sin comprimir) para accionar cada altavoz.

[0167] La Figura 18 muestra un ejemplo de configuración de una unidad de acceso de audio (trama de audio) del flujo de audio en caso de que la información del descriptor no esté presente dentro del flujo de audio. Aquí, se muestra un ejemplo de dos flujos.

[0169] En relación con el flujo de audio identificado por el PID2, la información de “FrWork #ch =2, #obj =1” incluida en “Config” indica la presencia de la “Trama” que incluye los elementos de datos codificados por canal en dos canales y un elemento de datos codificado por objeto. La información de “GroupID[0]=1, GroupID[1]=2” registrada en este orden dentro de “AudioSceneInfo ()” incluida en “Config” indica que la “Trama” que tiene los elementos de datos codificados del Grupo 1 y la “Trama” que tiene los elementos de datos codificados del Grupo 2 se disponen en este orden. Obsérvese que se considera que el valor de la etiqueta del paquete (PL) es el mismo en la “Config” y en cada “Trama” correspondiente a esta.

[0171] Aquí, la “Trama” con los elementos de datos codificados del Grupo 1 incluye un elemento de datos de muestra codificado del CPE (elemento de par de canales). También, la “Trama” con los elementos de datos codificados del Grupo 2 incluye la “Trama” con el elemento de metadatos como elemento de extensión (EXT_element) y la “Trama” con el elemento de datos de muestra codificado del SCE (elemento de canal único).

[0173] En relación con el flujo de audio identificado por el PID3, la información de “FrWork #ch =0, #obj =2” incluida en “Config” indica la presencia de la “Trama” que incluye dos elementos de datos codificados por objeto. La información de “GroupID[2]=3, GroupID [3]=4, SW_GRPID[0]=1” registrada en este orden dentro de “AudioSceneInfo ()” incluida en “Config” indica que la “Trama” que tiene los elementos de datos codificados del Grupo 3 y la “Trama” que tiene los elementos de datos codificados del Grupo 4 se disponen en este orden, y que estos grupos configuran el Grupo 1 de conmutación. Obsérvese que se considera que el valor de la etiqueta del paquete (PL) es el mismo en la “Config” y en cada “Trama” correspondiente a esta.

[0175] Aquí, la “Trama” con los elementos de datos codificados del Grupo 3 incluye la “Trama” con el elemento de metadatos como elemento de extensión (EXT_element) y la “Trama” con el elemento de datos de muestra codificado del SCE (elemento de canal único). Similarmente, la “Trama” con los elementos de datos codificados del Grupo 4 incluye la “Trama” con el elemento de metadatos como elemento de extensión (EXT_element) y la “Trama” con el elemento de datos de muestra codificado del SCE (elemento de canal único).

[0177] La Figura 19 muestra esquemáticamente el procesamiento de decodificación en caso de que la información del descriptor esté presente dentro del flujo de audio. El flujo de transporte TS, que es el flujo multiplexado, se introduce en el demultiplexor 202. En el demultiplexor 202, se analiza una capa de sistema y se suministra la información 1 del descriptor (información sobre el descriptor de configuración de flujo de audio 3D o el descriptor de ID de flujo de audio 3D) a la CPU 221.

[0179] En la CPU 221, el flujo de audio que incluye los elementos de datos codificados del grupo que tiene los atributos adaptados para la configuración de altavoz y la información de selección de espectadores y audiencia (usuario) se reconoce en función de la información 1 del descriptor. En el demultiplexor 202, la selección entre los flujos se realiza bajo el control de la CPU 221.

[0181] En otras palabras, el demultiplexor 202 extrae selectivamente mediante el filtro PID uno o más paquetes de flujo de audio que incluyen los elementos de datos codificados del grupo con los atributos adaptados para la configuración de altavoz y la información de selección de espectadores y audiencia de entre el número predeterminado de flujos de audio que tiene el flujo de transporte TS. Los flujos de audio así extraídos se recogen en las memorias 211 intermedias de multiplexación (211-1 a 211-N).

[0183] El decodificador 213 de audio 3D realiza un análisis del tipo de paquete de cada flujo de audio recibido en la memoria 211 intermedia de multiplexación, y la información 2 del descriptor presente en el flujo de audio se envía a la CPU 221. La presencia de los elementos de datos codificados del grupo que tiene los atributos adaptados para la configuración de altavoz y la información de selección de espectadores y audiencia (usuario) se reconoce en función de la información 2 del descriptor. A continuación, en el demultiplexor 202, se realiza la selección dentro de los flujos bajo el control de la CPU 221 en función de la información 2 del descriptor.

[0184] Específicamente, los elementos de datos codificados del grupo que tiene los atributos adaptados para la configuración de altavoz y la información de selección de espectadores y audiencia (usuario) se extraen selectivamente de cada flujo de audio como un objeto de decodificación, y se aplica el procesamiento de decodificación y el procesamiento de renderizado de mezcla aplican a los mismos, adquiriendo de este modo el elemento de datos de audio (audio sin comprimir) para accionar cada altavoz.

[0186] La Figura 20 muestra un ejemplo de configuración de una unidad de acceso de audio (trama de audio) del flujo de audio en caso de que la información del descriptor esté presente dentro del flujo de audio. Aquí, se muestra un ejemplo de dos flujos. La Figura 20 es similar a la Figura 18 excepto que el “Desc”, es decir, la información del descriptor se inserta entre “SINC” y “Config”.

[0188] En relación con el flujo de audio identificado por el PID2, la información de “groupID [0] =1, channeldata” incluida en el “Desc” indica que el elemento de datos codificado del grupo 1 es el elemento de datos codificado del canal. La información de “GroupID[1]=2, object sound” incluida en el “Desc” indica que el elemento de datos codificado del Grupo 2 es el elemento de datos codificado por objeto para el sonido inmersivo. Además, la información de “Stream_ID” indica un identificador de flujo del flujo de audio.

[0190] En relación con el flujo de audio identificado por el PID3, la información de “groupID[2]=3, object lang1” incluida en “Desc” indica que el elemento de datos codificado del Grupo 3 es el elemento de datos codificado por objeto para el lenguaje hablado según el primer lenguaje. La información de “GroupID[3]=4, object lang2” incluida en “Desc” indica que el elemento de datos codificado del Grupo 4 es el elemento de datos codificado por objeto para el lenguaje hablado según el segundo lenguaje. Además, la información de “SW_GRPID[0]=1” incluida en el “Desc” indica que los grupos 3 y 4 configuran el Grupo 1 de conmutación. Además, la información de “Stream_ID” indica un identificador de flujo del flujo de audio.

[0192] La Figura 21 muestra un ejemplo de configuración de una unidad de acceso de audio (trama de audio) del flujo de audio en caso de que la información del descriptor esté presente dentro del flujo de audio. Aquí se muestra un ejemplo de un flujo.

[0194] La información de “FrWork #ch =2, #obj =3” incluida en “Config” indica la presencia de la “Trama” que incluye los elementos de datos codificados por canal en dos canales y tres elementos de datos codificados por objeto. La información de “GroupID[0] =1, GroupID[1] =2, GroupID[2] =3, GroupID[3] =4, SW_GRPID[0] =1” registrada en este orden en “AudioSceneInfo ()” incluida en la “Config” indica que la “Trama” que tiene el elemento de datos codificado del Grupo 1 y la “Trama” que tiene el elemento de datos codificado del Grupo 2, la “Trama” que tiene el elemento de datos codificado del Grupo 3 y la “Trama” que tiene el elemento de datos codificado del Grupo 4 se disponen en este orden, y estos grupos 3 y 4 configuran el Grupo 1 de conmutación. Obsérvese que se considera que el valor de la etiqueta del paquete (PL) es el mismo en la “Config” y en cada “Trama” correspondiente a esta.

[0196] Aquí, la “trama” que tiene los elementos de datos codificados del Grupo 1 incluye elementos de datos de muestra codificados del CPE (elemento de par de canales). También, la “Trama” con los elementos de datos codificados de los grupos 2 a 4 incluye la “Trama” con el elemento de metadatos como elemento de extensión (EXT_element) y la “Trama” con el elemento de datos de muestra codificado del SCE (elemento de canal único).

[0198] La información de “GroupID[0]=1, channeldata” incluida en el “Desc” indica que el elemento de datos codificado del Grupo 1 es el elemento de datos codificado por canal. La información de “GroupID[1]=2, object sound” incluida en el “Desc” indica que el elemento de datos codificado del Grupo 2 es el elemento de datos codificado por objeto para el sonido inmersivo.

[0200] La información de “groupID[2]=3, object lang1” incluida en “Desc” indica que el elemento de datos codificado del Grupo 3 es el elemento de datos codificado por objeto para el lenguaje hablado según el primer lenguaje. La información de “GroupID[3]=4, object lang2” incluida en “Desc” indica que el elemento de datos codificado del Grupo 4 es el elemento de datos codificado por objeto para el lenguaje hablado según el segundo lenguaje. También, la información de “SW_GRPID[0] =1” incluida en el “Desc” indica que los grupos 3 y 4 constituyen el Grupo 1 de conmutación. Además, la información de “Stream_ID” indica el identificador de flujo del flujo de audio.

[0202] Los diagramas de flujo de la Figura 22 y la Figura 23 muestran ejemplos del procesamiento de control de decodificación de audio de la CPU 221 en el receptor 200 de servicios mostrado en la Figura 15. La CPU 221 comienza el procesamiento en la etapa ST1. Después, en la etapa ST2, la CPU 221 detecta la configuración de altavoz del receptor, es decir, la configuración de altavoz del sistema 215 de altavoces. A continuación, en la etapa ST3, la CPU 221 adquiere información de selección sobre una salida de audio por parte del espectador y la audiencia (usuario).

[0203] A continuación, en la estaba ST4, la CPU 221 lee la información del descriptor sobre el flujo principal dentro de la PMT, selecciona el flujo de audio al que pertenece el grupo que tiene los atributos adaptados para la configuración de altavoz y la información de selección de espectadores y audiencia, y lo lleva a una memoria intermedia. Después, en la etapa ST5, la CPU 221 comprueba si un paquete de tipo de descriptor está presente o no en el flujo de audio.

[0204] A continuación, en la etapa ST6, la CPU 221 determina si el paquete de tipo descriptor está presente o no. Si está presente, la CPU 221 lee la información del descriptor de un paquete en cuestión, detecta la información de “groupID”, “attribute”, “switchGroupID” y “presetGroupID” en la etapa ST7 y, a continuación, procede al procesamiento en la etapa ST9. Por otro lado, si no está presente, la CPU 221 detecta la información de “groupID”, “attribute”, “switchGroupID” y “presetGroupID” a partir de la información del descriptor de la PMT en la etapa ST8 y, a continuación, procede al procesamiento en la etapa ST9. Obsérvese que es posible no ejecutar la etapa ST8 y decodificar todo el flujo de audio que se va a procesar.

[0205] En la etapa ST9, la CPU 221 determina si el elemento de datos codificado por objeto está decodificado o no. Si se decodifica, la CPU 221 decodifica los elementos de datos codificados por objetos en la etapa ST10 y, a continuación, procede al procesamiento en la etapa ST11. Por otro lado, si no se decodifica, la CPU 221 procede inmediatamente al procesamiento en la etapa ST11.

[0206] En la etapa ST11, la CPU 221 determina si el elemento de datos codificado por el canal está decodificado o no. Si se decodifica, en la etapa ST12, la CPU 221 decodifica el elemento de datos codificado por canal, realiza un procesamiento de mezcla descendente o ascendente en la configuración de altavoz del sistema 215 de altavoces y adquiere el elemento de datos de audio para accionar cada altavoz, según sea necesario. Posteriormente, en la etapa ST13, la CPU 221 procede al procesamiento. Por otro lado, si no se decodifica, la CPU 221 pasa inmediatamente al procesamiento en la etapa ST13.

[0207] En la etapa ST13, en caso de que la CPU 221 decodifique el elemento de datos codificado por objeto, en función de la información, se mezcla con el elemento de datos del canal o se calcula el renderizado del altavoz. En el cálculo del renderizado del altavoz, el renderizado del altavoz (relación de mezcla en cada altavoz) se calcula mediante el acimut (información del acimut) y la elevación (información del ángulo de elevación). Dependiendo del resultado del cálculo, el elemento de datos de audio del objeto se mezcla con los datos del canal para accionar cada altavoz.

[0208] A continuación, la CPU 221 realiza un control de rango dinámico del elemento de datos de audio para accionar cada altavoz, y lo emite en la etapa ST14. Posteriormente, la CPU 221 finaliza el procesamiento en la etapa ST15.

[0209] Como se ha descrito anteriormente, en el sistema 10 de transmisión/recepción mostrado en la Figura 1, el transmisor 100 de servicios inserta la información de atributos que indica los atributos respectivos de los elementos de datos codificados de la pluralidad de grupos incluidos en el número predeterminado de flujos de audio en la capa del contenedor y/o la capa de flujo de audio. En consecuencia, los atributos respectivos de los elementos de datos codificados de la pluralidad de grupos pueden reconocerse fácilmente antes de decodificar los elementos de datos codificados en el lado de recepción, y se pueden decodificar y utilizar selectivamente solo los elementos de datos codificados del grupo necesario, por lo que es posible reducir la carga de procesamiento.

[0210] En el sistema 10 de transmisión/recepción mostrado en la Figura 1, el transmisor 100 de servicios inserta la información de relación de correspondencia de flujo que indica qué flujo de audio incluye cada uno de los elementos de datos codificados de la pluralidad de grupos en la capa del contenedor y/o la capa de flujo de audio. En consecuencia, los flujos de audio que incluyen los elementos de datos codificados del grupo necesario se pueden reconocer fácilmente en el lado de recepción, por lo que es posible reducir la carga de procesamiento.

[0211] <2. Realización alternativa>

[0212] En las realizaciones descritas anteriormente, el receptor 200 de servicios extrae selectivamente las flujos de audio que incluyen los elementos de datos codificados del grupo que tienen los atributos adaptados para la configuración de altavoz y la información de selección de espectadores y audiencia de entre la pluralidad de flujos de audio transmitidos desde el transmisor 100 de servicios, realiza el procesamiento de decodificación y adquiere el número predeterminado de elementos de datos de audio para accionar el altavoz.

[0213] Sin embargo, se puede concebir que el receptor de servicio extraiga selectivamente uno o más flujos de audio que incluyen los elementos de datos codificados del grupo que tienen los atributos adaptados para la configuración de altavoz y la información de selección de espectadores y audiencia, de la pluralidad de flujos de audio transmitidos desde el transmisor 100 de servicios, reconfigure los flujos de audio que incluyen los elementos de datos codificados del grupo que tienen los atributos adaptados para la configuración de altavoz y la información de selección de espectadores y audiencia, y entregue los flujos de audio reconfigurados a un dispositivo (que también incluye un dispositivo DLNA) conectado a una red interna.

[0214] La Figura 24 muestra un ejemplo de configuración de un receptor 200A de servicios que entrega los flujos de audio reconfigurados al dispositivo conectado a la red interna, como se ha descrito anteriormente. Los componentes de la Figura 24 que corresponden a los de la Figura 15 se denotan con los mismos números de referencia y, por lo tanto, su descripción detallada se omitirá de aquí en adelante.

[0215] El demultiplexor 202 extrae selectivamente mediante el filtro PID, bajo el control de la CPU 221, los paquetes de uno o más flujos de audio que incluyen los elementos de datos codificados del grupo que tienen los atributos adaptados para la configuración de altavoz y la información de selección de espectadores y audiencia de entre el número predeterminado de flujos de audio que tiene el flujo de transporte TS.

[0216] Los flujos de audio extraídos por el demultiplexor 202 se recogen en la memoria intermedia de multiplexación correspondiente de entre las memorias 211-1 a 211-N intermedias de multiplexación. En el combinador 212, los flujos de audio se leen en cada trama de audio de cada memoria de multiplexación en la que se reciben los flujos de audio, y se suministran a una unidad 231 de reconfiguración de flujo.

[0217] En la unidad de reconfiguración de flujos 231, en caso de que la información del descriptor (“Desc”) esté incluida en los flujos de audio suministrados desde el combinador 212, la información del descriptor se extrae y se transmite a la CPU 221. En la unidad de reconfiguración de flujos 231, los elementos de datos codificados del grupo que tiene los atributos adaptados para la configuración de altavoz y la información de selección de espectadores y audiencia (usuarios) se adquieren selectivamente, bajo el control de la CPU 221, y se reconfiguran los flujos de audio que tienen los elementos de datos codificados. Los flujos de audio reconfigurados se suministran a una interfaz 232 de entrega. Después, se entregan (transmiten) desde la interfaz 232 de entrega al dispositivo 300 conectado a la red interna. La conexión de red interna incluye una conexión Ethernet y una conexión inalámbrica de “WiFi” o “Bluetooth”. “WiFi” y “Bluetooth” son marcas comerciales registradas.

[0218] También, el dispositivo 300 incluye un altavoz envolvente, una segunda pantalla y un dispositivo de salida de audio conectado a un terminal de red. Un dispositivo 200 al que se entrega el flujo de audio reconfigurado realiza el procesamiento de decodificación similar al decodificador 213 de audio 3D en el receptor 200 de servicios de la Figura 15, y adquiere los elementos de datos de audio para accionar el número predeterminado de altavoces.

[0219] Además, como receptor de servicios, se puede concebir que los flujos de audio reconfigurados, descritos anteriormente, se transmitan a un dispositivo conectado a una interfaz digital, tal como “HDMI (interfaz multimedia de alta definición)”, “MHL (enlace móvil de alta definición)” y “DisplayPort”. “HDMI” y “MHL” son marcas comerciales registradas.

[0220] También, en las realizaciones descritas anteriormente, la información de relación de correspondencia de flujo insertada en la capa o similar del contenedor es la información que indica la relación de correspondencia entre el ID de grupo y el ID de subflujo. Específicamente, el ID de subflujo se utiliza para correlacionar el grupo con el flujo de audio. Sin embargo, se puede concebir que se use un identificador de paquetes (PID: Packet ID) o un tipo de flujo (stream_type) para correlacionar el grupo con el flujo de audio. En caso de que se use el tipo de flujo, el tipo de flujo de cada flujo de audio debe variarse.

[0221] También, las realizaciones descritas anteriormente ilustran ejemplos en los que la información de atributos de los elementos de datos codificados de cada grupo se transmite al disponer del campo “attribute_of_groupID” (véase la Figura 10). Sin embargo, la presente tecnología también incluye un método que puede reconocer el tipo (atributo) de los elementos de datos codificados si se reconoce el ID de grupo específico definiendo un significado específico en un valor propio del ID de grupo (GroupID) entre el transmisor y el receptor. En este caso, el ID de grupo funciona como el identificador del grupo, pero también como la información de atributos de los elementos de datos codificados del grupo, por lo que el campo “attribute_of_groupID” se vuelve innecesario.

[0222] También, las realizaciones descritas anteriormente ilustran ejemplos en los que los elementos de datos codificados de la pluralidad de grupos incluyen tanto los elementos de datos codificados por canal como los elementos de datos codificados por objeto (véase la Figura 3). Sin embargo, la presente tecnología también es aplicable de manera similar al caso de que los elementos de datos codificados de la pluralidad de grupos incluyan solo los elementos de datos codificados por canal, o solo los elementos de datos codificados por objeto.

[0223] También, las realizaciones descritas anteriormente ilustran ejemplos en los que el contenedor es el flujo de transporte (MPEG-2 TS). Sin embargo, la presente tecnología también es aplicable de manera similar a un sistema en el que los flujos se entregan mediante un contenedor en un formato MP4 u otro. Por ejemplo, el sistema incluye un sistema de entrega de flujo base MPEG-DASH o un sistema de transmisión/recepción que gestiona un flujo de transmisión con estructura MMT (transporte de medios MPEG).

[0224] Una característica principal de la presente tecnología es que la información de relación de correspondencia de flujo se inserta en la capa del contenedor y/o la capa de flujo de audio, la información de relación de correspondencia de flujo indica qué flujo de audio incluye cada una de las informaciones de atributos que indican los atributos respectivos de los elementos de datos codificados de la pluralidad de grupos incluidos en el número predeterminado de flujos de audio y los elementos de datos codificados de la pluralidad de grupos, por lo que es posible reducir la carga de procesamiento en el lado de recepción (véase la Figura 14).

[0225] Lista de signos de referencia

[0226] 10 Sistema de transmisión/recepción

[0227] 100 Transmisor de servicios

[0228] 110 Unidad de generación de flujo

[0229] 112 Codificador de vídeo

[0230] 113 Codificador de audio

[0231] 114 Multiplexor

[0232] 200, 200A Receptor de servicios

[0233] 201 Unidad receptora

[0234] 202 Demultiplexor

[0235] 203 Decodificador de vídeo

[0236] 204 Circuito de procesamiento de vídeo

[0237] 205 Circuito de accionamiento del panel

[0238] 206 Panel de visualización

[0239] 211-1 a 211-N Memoria intermedia de multiplexación

[0240] 212 Combinador

[0241] 213 Decodificador de audio 3D

[0242] 214 Circuito de procesamiento de salida de sonido

[0243] 215 Sistema de altavoces

[0244] 221 CPU

[0245] 222 flash ROM

[0246] 223 DRAM

[0247] 224 Bus interno

[0248] 225 Unidad receptora de control remoto

[0249] 226 Transmisor de control remoto

[0250] 231 Unidad de reconfiguración de flujo

[0251] 232 Interfaz de entrega

[0252] 300 Dispositivo

Claims

1. REIVINDICACIONES

1. Un aparato (100) de transmisión, que comprende:

una unidad de transmisión configurada para transmitir un contenedor en un formato predeterminado con un número predeterminado de flujos de audio, incluyendo elementos de datos codificados de una pluralidad de grupos; y

una unidad de inserción de información configurada para insertar información de atributos que indica los respectivos atributos de los elementos de datos codificados de la pluralidad de grupos e información de relación de correspondencia de flujo que indica qué flujo de audio incluye cada uno de los elementos de datos codificados de la pluralidad de grupos en una capa del contenedor y/o una capa de un flujo de audio; en donde la información de atributos incluye al menos uno de los datos de canal, el sonido del objeto o el lenguaje del objeto.

2. Un aparato (200) de recepción, que comprende:

una unidad receptora que recibe un contenedor en un formato predeterminado con un número predeterminado de flujos de audio, incluyendo elementos de datos codificados de una pluralidad de grupos; información de atributos que indica los respectivos atributos de los elementos de datos codificados de la pluralidad de grupos e información de relación de correspondencia de flujo que indica qué flujo de audio incluye cada uno de los elementos de datos codificados de la pluralidad de grupos que se insertan en una capa del contenedor y/o una capa de un flujo de audio, en donde la información de atributos incluye al menos uno de los datos de canal, el sonido del objeto o el lenguaje del objeto; y

una unidad de procesamiento que procesa el número predeterminado de flujos de audio incluidos en el contenedor recibido en función de la información de atributos.