ES2354024T3 - Procedimiento de transmisión de un flujo de información por inserción en el interior de un flujo de datos de voz, y codec paramétrico para su implementación. - Google Patents

Procedimiento de transmisión de un flujo de información por inserción en el interior de un flujo de datos de voz, y codec paramétrico para su implementación. Download PDF

Info

Publication number
ES2354024T3
ES2354024T3 ES04787314T ES04787314T ES2354024T3 ES 2354024 T3 ES2354024 T3 ES 2354024T3 ES 04787314 T ES04787314 T ES 04787314T ES 04787314 T ES04787314 T ES 04787314T ES 2354024 T3 ES2354024 T3 ES 2354024T3
Authority
ES
Spain
Prior art keywords
information flow
bits
frames
flow
vocoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
ES04787314T
Other languages
English (en)
Other versions
ES2354024T8 (es
Inventor
Frederic Rousseau
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
EADS Secure Networks SAS
Original Assignee
EADS Secure Networks SAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by EADS Secure Networks SAS filed Critical EADS Secure Networks SAS
Application granted granted Critical
Publication of ES2354024T3 publication Critical patent/ES2354024T3/es
Publication of ES2354024T8 publication Critical patent/ES2354024T8/es
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Time-Division Multiplex Systems (AREA)
  • Telephone Set Structure (AREA)
  • Communication Control (AREA)

Abstract

Procedimiento de transmisión de un flujo de información secundaria (DS2) entre un emisor y un receptor, que comprende la inserción de dicho flujo de información secundaria al nivel de un vocodificador paramétrico (100) del emisor que genera un flujo de información principal (DS1) que es un flujo de datos de voz que codifica una señal de voz (VS1) y que se transmite desde el emisor al receptor, según el cual unos bits del flujo de información secundaria se insertan: - en solamente algunas de las tramas (F[i]) del flujo de información principal, seleccionadas por una máscara de tramas conocida por el emisor y por el receptor; y - en el interior de una trama seleccionada del flujo de información principal, en posiciones predefinidas imponiendo una condición a solamente algunos de los bits de la trama, seleccionados por una máscara de bits conocida por el emisor y por el receptor; según el cual la máscara de tramas define una subserie (SF[m]) de grupos de tramas consecutivas en cada una de las cuales se insertan bits del flujo de información secundaria; y la longitud en número de tramas (M) de un grupo de tramas consecutivas es sensiblemente igual a la profundidad de memorización de las tramas en el vocodificador paramétrico.

Description

La presente invención se refiere de manera general al campo de la codificación de voz, y en particular a un procedimiento de inserción de un flujo de información en el interior de un flujo de datos de voz, pudiendo el flujo de información insertado ser un flujo de datos de voz a un rendimiento más débil o un flujo de datos transparentes. La invención encuentra aplicaciones, en particular, en los sistemas de radiocomunicación móvil públicos o 5 profesionales (sistemas PMR, del inglés “Professional Mobile Radiocommunication”). Se denomina señal de voz a una señal acústica emitida por un aparato vocal humano. Se denomina codec a una unidad material y/o software de codificación y de descodificación de un flujo digital. Su función de codificación permite transcodificar un flujo digital de muestras cuantificadas en el ámbito temporal de una señal de voz en un flujo digital comprimido. Su función de descodificación permite efectuar una 10 operación seudoinversa en el objetivo de restituir atributos representativos de la señal fuente, por ejemplo atributos perceptibles en un receptor tal como la oreja humana. Un flujo de datos de voz es un flujo de datos generados por un codec de voz, a partir de la codificación de una señal de voz. Un flujo de datos transparentes es una serie digital binaria cuyo tipo de contenido no se especifica, bien sea efectivamente un flujo de datos informáticos o un flujo de datos de voz. Los datos se 15 denominan transparentes en el sentido en que, desde un punto de vista externo, todos los bits tienen una importancia igual respecto de, por ejemplo, la corrección de los errores de transmisión de manera que una codificación correctora de errores debe ser por lo tanto uniforme sobre el conjunto de los bits. Por el contrario, si el flujo es un flujo de datos de voz, algunos bits son más importantes a proteger que otros. Un codec de voz, también denominado vocodoficador (en inglés “Vocoder” “Speech Codec” o “Voice 20 Codec”) es un codec especializado que está adaptado a la codificación de una señal de voz cuantificada y a la descodificación de un flujo de tramas de palabras. En particular, presenta parta su función de codificación una sensibilidad que depende de las características de la voz del locutor y una baja velocidad binaria asociada a una banda de frecuencias más limitada que la banda de frecuencias de audio general (20 Hz-kHz). Existen varias familias de técnicas de codificación de voz, especialmente técnicas de codificación de la 25 forma de onda de la señal de voz (por ejemplo la codificación ITU-T G.711 MIC ley A/mu), técnicas de codificación de modelo de fuente (siendo la más conocida la codificación CELP, del inglés “Code-Excited Linear Prediction”), codificaciones perceptuales , y técnicas híbridas fundadas sobre la combinación de técnicas pertenecientes a al menos dos de las familias anteriores. La invención apunta la aplicación a técnica de codificación “de modelo de fuente”. Estas técnicas también 30 denominadas técnicas de codificación paramétricas, ya que se basan en la representación de parámetros de excitación de la fuente de voz y/o parámetros que describen la envoltura espectral de la señal emitida por el locutor (por ejemplo según un modelo de codificación por predicción lineal que utilizan la correlación entre los valores consecutivos de los parámetros asociados a un filtro de síntesis, o también según un modelo espectral) y/o de parámetros acústicos dependientes de la fuente, por ejemplo la amplitud y la frecuencia central fundamental 35 percibida (“Pitch” en inglés), el periodo (“Pitch period” en inglés) y la amplitud de los picos de energía de los primeros harmónicos de una frecuencia de pitch de diferentes intervalos, su grado de sonorización (“voicing rate” en inglés), su melodía y sus encadenamientos. Se denomina vocodificador paramétrico un vocodificador que aplica una codificación digital de la voz utilizando un modelo paramétrico de la fuente de voz. En la práctica, tal vocodificador asocia varios parámetros a 40 cada trama del flujo de voz. En primer lugar, unos parámetros espectrales de predicción lineal también denominados, por ejemplo, coeficientes LP (del inglés “Linear Prediction” o coeficientes LPC (del inglés “Lineal Prediction Coding”) que definen el filtro de predicción lineal del vocodificador (filtro a corto lazo). En segundo lugar, unos parámetros de excitación adaptativa asociados a uno (o varios) vector(es) de excitación adaptativa, también denominados parámetros LTP (del inglés “Long Term Predictor”) o también coeficientes de predicción adaptativa, 45 que definen un filtro a largo plazo en forma de un primer vector de excitación y de una ganancia asociada a aplicar en la entrada del filtro de síntesis. Y en tercer lugar, unos parámetros de excitación fijada asociados a uno (o barios) vector(es) de excitación fija, también denominados parámetros algebraicos o parámetros estocásticos que definen un segundo vector de excitación y una ganancia asociada a aplicar en la entrada de un filtro de síntesis.
Por el documento EP-A-1 020 848, se conoce un procedimiento para transmitir información auxiliar en un 50 flujo de información principal que corresponde a una señal de voz, siendo dicha información auxiliar insertada al nivel del vocodificador CELP que codifica la señal de voz en sustitución del índice del vector de excitación fija. Más específicamente, los bits de información auxiliar se insertan en el vocodificador del emisor en lugar de los bits que codifican normalmente el índice correspondiente, y el valor de la ganancia se pone a cero con el fin de informar al
vocodificador del receptor. Según un inconveniente, la inserción de un flujo de información auxiliar en el flujo no es discreta, en el sentido en que basta constatar el valor nulo de la ganancia para saber que los bits normalmente asignados a la codificación del índice asociado contienen de hecho la información auxiliar. Esto se considera como un inconveniente para la aplicación del procedimiento en un sistema en el cual la confidencialidad de las transmisiones 5 es importante. El documento US 2001/038643 divulga un procedimiento de inserción de un flujo de información secundaria en un flujo de información principal, en el cual se determina subbandas de una señal de audio que corresponden al flujo principal que pueden contener datos del flujo secundario. Esta selección de subbandas se efectúa en función de característica de la señal de audio en cuestión, tal como la relación señal-ruido en las 10 subbandas consideradas. A continuación, para una subbanda seleccionada, se determina el número de bits de codificación disponibles para la inserción de datos del flujo secundario. De nuevo, esta determinación recurre a características de la señal de audio tales como la diferencia entre el factor de escala y el nivel suelo del ruido en la subbanda. Finalmente, unos valores asociados a subbandas están enmascarados con datos del flujo de información secundaria a transmitir. 15 La invención tiene por objeto principal permitir la inserción discreta de un flujo secundario en un flujo principal que corresponde a un flujo de voz. Otros objetos de la invención apuntar a maximizar la velocidad del flujo secundario que se puede insertar, a la vez que se preserva de la menor manera la eficiencia de la codificación del flujo principal respecto de atributos de la fuente (es decir, preservando la calidad percibida en la audición durante la síntesis del flujo de voz). Otro objeto de la invención es también preservar simultáneamente la eficiencia de la 20 codificación del flujo secundario respecto de atributos de la fuente del flujo secundario, especialmente cuando se trata también de un flujo de voz. Se alcanzan algunos o la totalidad de estos objetos, según un primer aspecto de la invención gracias a un procedimiento de transmisión de un flujo de información secundaria entre un emisor y un receptor según la reivindicación 1. 25 El emisor y el receptor, al igual que la transmisión, se deben interpretar en su aceptación más amplia. En un ejemplo de aplicación a un sistema de radiocomunicación, el emisor y el receptor son equipos terminales del sistema, y la transmisión es una radiotransmisión. La inserción se realiza al nivel de un vocodificador paramétrico del emisor que produce dicho flujo de información principal, sin modificación de la velocidad binaria de este último respecto de lo que sería sin inserción. 30 Dicho de otro modo, el flujo de información secundaria se interpreta como una serie de condiciones en la serie de valores de algunos parámetros del modelo de codificación paramétrica del flujo de información principal. Respecto del procedimiento de inserción conocido en la técnica anterior, el procedimiento según la invención presenta la ventaja que nada en el flujo de información secundaria que se transmite traiciona la presencia del flujo de información secundaria insertado. Además, limitando la inserción a algunas tramas y/o algunos bits en solamente 35 una trama, se preserva la inteligibilidad de la señal de voz codificada en el flujo de información principal, lo cual no es absolutamente el caso con el procedimiento de inserción conocido anteriormente mencionado. Con el fin de reforzar la discreción de la inserción, y por lo tanto la robustez respecto de los intentos de pirateo de la transmisión, la máscara de tramas puede ser variable.. Entonces se genera según un algoritmo común paralelamente en el emisor y en el receptor, con el fin de garantizar la sincronización de la codificación y de la 40 descodificación del flujo de información principal, respectivamente en el emisor y en el receptor. La máscara de tramas puede definir ventajosamente una subserie de grupos de tramas consecutivas en cada una de las cuales se insertan bits del flujo de información secundaria, con el fin de aprovechar el efecto de deslizamiento de la codificación que se deriva de la memorización de las tramas en el vocodificador paramétrico. Esto contribuye a preservar la fidelidad del flujo de información principal a la señal de voz. 45 De preferencia, la longitud en número de tramas de un grupo de tramas consecutivas es entonces sensiblemente igual a la profundidad de memorización de las tramas en el vocodificador paramétrico. Cuando el modelo de fuente del vocodificador paramétrico prevé, para algunas al menos de las tramas del flujo de información principal, diferentes clases de bits en función de su sensibilidad respecto de la calidad de la codificación de la señal de voz, la máscara de bits puede ser tal que unos bits del flujo de información secundaria 50 se insertan en estas tramas imponiendo una condición prioritariamente a los bits pertenecientes a la clase de bits menos sensible. Esto contribuye también a preservar la fidelidad del flujo de información principal a la señal de voz.
El flujo de información secundaria puede ser un flujo de datos de voz que tiene una velocidad más baja
que la velocidad de información principal. Esto es el caso cuando el flujo de información secundaria sale de otro vocodificador que tiene una velocidad más baja que la velocidad del vocodificador paramétrico. Evidentemente, el flujo de información secundaria también puede ser un flujo de datos transparentes. Cuando la velocidad del flujo de información secundaria a insertar es demasiado elevada respecto de la velocidad del vocodificador paramétrico, se puede tener que suprimir bits del flujo de información secundaria, si 5 esto es compatible con la aplicación. Por el contrario, en caso de velocidad demasiado baja del flujo de información secundaria, se pueden repetir algunos bits o introducir bits de relleno. El flujo de información secundaria se somete a una codificación correctora antes de su inserción en el flujo de información principal. Esto permite paliar que en el contexto de los vocodificadores paramétricos, algunos bits de las tramas del flujo de información principal se someten débilmente o incluso no se someten a una codificación 10 correctora de errores (formando una codificación de canal) antes de la transmisión. En una posible realización, se insertan unos bits del flujo de información secundaria imponiendo valores a unos bits que pertenecen a parámetros de excitación de un filtro del modelo fuente del vocodificador paramétrico y/o de los parámetros de excitación fija del filtro de predicción lineal de un vocodificador CELP. El hecho de no imponer condiciones a los bits de los parámetros de predicción lineal preserva la inteligibilidad del flujo de 15 información principal. A este respecto también, se prefiere imponer condiciones a los bits que forman los parámetros de excitación adaptativa en lugar de a los que forman los parámetros de excitación fija. En una realización, unos bits del flujo de información secundaria pueden también insertarse en tramas de silencio del flujo de información principal, en lugar o además de la inserción de las tramas de voz. En otra realización, unos bits del flujo de información secundaria se pueden insertar imponiendo 20 condiciones a bits no cifrados a modo de un cifrado de extremo a extremo del flujo de información principal. Esto permite que un equipo receptor pueda, después de la excitación, descodificar el flujo de información secundaria aunque sin tener la capacidad de descifrado por este concepto. Evidentemente, los bits en cuestión pueden, sin embargo, experimentar una o más operaciones de cifrado/descifrado por otro concepto, por ejemplo cifrados de conexión o de interfaz de radio. 25 Por ejemplo, la condición de inserción puede ser una condición de igualdad de los bits de la trama del flujo de información principal con los bits del flujo de información secundaria insertados. Un segundo aspecto de la invención se refiere a un vocodificador paramétrico según la reivindicación 13, adaptado para la aplicación del procedimiento según el primer aspecto. En lo que se refiere a su función de codificación, tal vocodificador paramétrico comprende medios de inserción para la inserción de un flujo de 30 información secundaria en un flujo de información principal que es generado por el vocodificador paramétrico a partir de una señal de voz. Para su función de descodificación, el vocodificador comprende medios de extracción del flujo de información secundaria a partir del flujo de información principal. Un tercer aspecto de la invención se refiere también a un equipo terminal de un sistema de 35 radiocomunicaciones que comprende un vocodificador paramétrico según el segundo aspecto. Otras características y ventajas de la invención se harán evidente a lo largo de la siguiente descripción. esta es puramente ilustrativa y debe ser leída acompañada de los dibujos anexos en los cuales:
- la figura 1 es un diagrama que ilustra un ejemplo de flujo de datos de voz codificados (flujo de voz) organizado en tramas y subtramas; 40
- la figura 2 es un esquema sinóptico parcial de un ejemplo de equipo emisor según la invención;
- la figura 3 es un esquema sinóptico parcial de un ejemplo de un vocodificador según la invención; y
- la figura 4 es un esquema sinóptico parcial de un ejemplo de vocodificador utilizado en el equipo receptor según la invención.
La figura 1 es un esquema que ilustra el principio general de la inserción de un flujo de datos secundario 45 DS2 en un flujo de datos principal DS1 que codifica una señal de voz VS1. Esta inserción se realiza al nivel de un emisor que, después del multiplexado y codificación de canal, emite el flujo DS1, y por lo tanto el flujo DS2 que contiene, hacia un receptor distante. Tal emisor y tal receptor son, por ejemplo, terminales móviles de un sistema de radiocomunicaciones público tal como el GSM o el UMTS, o un sistema de radiocomunicaciones profesional tal como TETRA o TETRAPOL. 50
El flujo DS1 se genera mediante un vocodificador 10 a partir de la señal de voz VS1, la cual se produce mediante una fuente de voz 1 tal como un aparato vocal de un individuo. A este respecto, la señal de voz VS1 se digitaliza según una codificación MIC (codificación por modulación de impulso) lineal y segmentada en tramas denominadas de voz. Además, cada trama está en general segmentada al nivel del vocodificador 10 en un número M fijo de segmentos denominados subtramas en el campo temporal (modelo CELP) o en un campo frecuencial 5 (modelo MBE, del inglés “Multi-Band Excitation”). típicamente, M está comprendido entre 2 y 6, según los vocodificadores. Cada trama comprende un número determinado N de bits. La figura 2 ilustra una señal de voz digitalizada y segmentada en tramas F[i] sucesivas, para i comprendido entre 0 y el infinito. Además, al menos para algunos parámetros, cada trama F[i] se puede segmentar en M subtramas referenciadas SF[m], para m comprendido entre 1 y M. En la figura, se referencia D la duración de una 10 trama. De vuelta a la figura 1, el vocodificador 10 puede ser un vocodificador EFR (del inglés “Enhanced Full Rate”) del sistema GSM (véase la especificación EN 300 726 GSM 06.60 del ETSI), un vocodificador AMR (del inglés “Adaptative Multi-Rate”) del sistema UMTS (véase la especificación 3GPPT TS26.101 del ETSI) para el cual D=20 ms y M=4, un vocodificador de un terminal de radiocomunicación TETRA conforme a la especificación EN 300 15 395-2 del ETSI, o todavía un vocodificador TETRAPOL a 5 kbits/s (véase la referencia ITU-R M.2014) para el cual el número D=20 ms, M=3 y N=120. El flujo de datos secundario DS2 es por ejemplo generado por un codec 20, el cual recibe un flujo de datos a codificar de una fuente 2. En un ejemplo de aplicación de la invención, la fuente 2 emite también una señal de voz, siendo el codec 20 entonces un vocodificador de velocidad inferior al del vocodificador 10. En este caso, el flujo 20 DS2 es también un flujo de tramas de voz. En esta aplicación, la invención permite la inserción discreta de una comunicación secundaria en una comunicación principal. el codec 20, más específicamente el vocodificador 20 puede ser un vocodificador de tipo MF-MELP (del inglés “Multi-Frame – Mixed Excitation Linear Prediction”) a 1200/2400 bits/s descrito en NATO STANAG 4591. Eventualmente, el flujo DS2 se puede someter a una codificación correctora de errores, por ejemplo una 25 codificación CRC (del inglés “Cyclic Redundancy Code”) o una codificación convolutiva, que forma una codificación de canal para su transmisión a través del canal de transmisión. En efecto, se sabe que algunos bits de las tramas del flujo de voz DS1 están poco, incluso nada, protegidos por una codificación de canal, de manera que se puede requerir una protección específica de los bits del flujo de información DS2, según las aplicaciones. El vocodificador 10 comprende un codificador lo que aplica un algoritmo de codificación de modelo fuente 30 (o modelo paramétrico), por ejemplo de tipo CELP o de tipo MELP. En cuyo caso, los parámetros que corresponden a la codificación de una trama de voz del lado del emisor incluyen, entre otros, vectores de excitación que se someten, del lado del receptor, a un filtro cuya respuesta modeliza la voz. Los algoritmos de codificación paramétricos utilizan parámetros calculados bien directamente en función del flujo de tramas de palabras entrante y de un estado interno del vocodificador, bien calculados por iteraciones 35 (en tramas y/o subtramas sucesivas) optimizando un criterio dado. Típicamente, los primeros parámetros comprenden los parámetros de predicción lineal (LP) que definen un filtro a corto plazo, y los segundos parámetros comprenden los parámetros de excitación adaptativa (LTP) que definen un filtro de lago plazo y los parámetros de excitación fija. Cada iteración corresponde a la codificación de una subtrama en una trama del flujo de entrada. De este modo, por ejemplo de excitación adaptativa y los parámetros de excitación fija se seleccionan por 40 iteraciones sucesivas con el fin de minimizar el error cuadrático entre la señal de voz sintetizada y la señal de voz VS1 original. En la bibliografía anglosajona, esta selección iterativa es a veces denominada “Codebook search” o “Analysis Search” o “Error Minimization Loop” o también “Closed Loop Pitch Analysis”. En general, los parámetros de excitación adaptativa y/o los parámetros de excitación fija pueden comprender cada uno, por una parte un índice que corresponde a un valor de un vector en el diccionario adaptativo 45 (dependiente de la subtrama) o en un diccionario fijo, respectivamente, y por otra parte un valor de ganancia asociado a dicho vector. Sin embargo, en algunos vocodificadores tales como el vocodificador TETRAPOL, los parámetros de una al menos de las excitaciones a aplicar, es decir, sin direccionamiento de un diccionario por un índice. En lo sucesivo, no se hace distinción entre el modo de definición de los vectores de excitación. Las condiciones impuestas por los bits del flujo DS2 se aplican bien al índice relativo al valor del vector de excitación en 50 el diccionario, bien al valor de la propia excitación. Además, del flujo de datos principales (flujo de tramas de voz) VS1 y del flujo de datos secundario DS2, el vocodificador 10 recibe, según la invención un flujo TS de máscaras de tramas, y/o un flujo BS de máscaras de bits.
El flujo FS es generado por un generador de máscaras de tramas 3, a partir de un flujo binario recibido de
un generador seudoaleatorio 5, el cual funciona a partir de una clave secreta Kf conocida por el emisor y el receptor. Una máscara de tramas tiene por función seleccionar entre un número determinado de tramas del flujo de tramas de voz DS1, aquellas en las cuales, solamente, se insertan los bits del flujo de datos secundarios DS2. A este respecto, el generador 3 ejecuta el siguiente proceso. Bien la serie de las tramas F[i] del flujo principal DS1, bien h una función digital de valores enteros, y bien k un número entero determinado, que es 5 preferiblemente sensiblemente igual a la profundidad de memorización de tramas sucesivas en el vocodificador 10 (véase más adelante, número P, en referencia al esquema de la figura 3), entonces las tramas F[h(i)], F[h(i)+1,..., F[h(i)+k] definen lo que se denomina aquí una subserie de grupos de tramas de la serie de las tramas F[i]. Según una modalidad preferida de la invención, las tramas que experimentan la condición de inserción son tramas pertenecientes a una subserie de grupos de tramas consecutivas del flujo principal DS1. Esto permite 10 aprovechar el efecto deslizante de la codificación de voz resultante de la memorización de tramas prevista en el vocodificador 10, con el fin de preservar la calidad de la codificación de la señal de voz VS1 en el flujo principal DS1. Por esta razón, el número k que corresponde a la longitud en tramas de un grupo de tramas, es preferiblemente igual a, o por lo menos cercano a la profundidad de memorización R del vocodificador 10, tal como se ha indicado anteriormente. 15 Por ejemplo, eligiendo h(i) = 10 x i y k = 5, entonces las tramas F[0] a F[5] experimentan la condición de inserción, las tramas F[6] a F[9] no experimentan la condición de inserción, las tramas F[10] a F[15] experimentan la condición de inserción, las tramas F[16] a F[19] no experimentan la condición de inserción, etc. dicho de otro modo, en este ejemplo, 6 tramas consecutivas de 10 experimentan la condición de inserción. El flujo BS es por su parte generado por un generador de máscaras de bits 4, a partir de un flujo binario 20 recibido de un generador seudoaleatorio 6, el cual funciona a partir de una clave secreta Kb, también conocida por el emisor y el receptor. Una máscara de bits tiene por función seleccionar, entre los N bits de una trama del flujo de tramas de voz DS1 seleccionadas en virtud de la máscara de tramas asociada a la trama (F[i] actual, los que, solamente, están condicionados por bits del flujo de datos secundarios DS2. A este respecto, el generador 4 ejecuta el siguiente proceso. Produce un flujo de un número fijado de 25 Smax bits, donde Smax designa el número máximo de bits de una trama actual Fi del flujo principal DS1 que pueden estar condicionados por bits del flujo secundario DS2. un número determinado S de bits entre estos Smax bits, donde S es inferior o igual a Smax (S≤Smax), tiene el valor lógico 1, teniendo los otros el valor lógico 0. Estos Smax bits se insertan en una cadena de N bits, en posiciones predefinidas y fijas previstas en el software del vocodificador 10, de manera a formar una máscara binaria sobre la trama. Esta máscara, denominada máscara de 30 bits, comprende por lo tanto s bits iguales a 1. En un ejemplo, cuando un bit de la máscara de bits es igual a 1, indica una posición de inserción de un bit del flujo secundario DS2 en la trama actual Fi del flujo principal DS1. El número Smax se fija realizando un compromiso entre el número de bits máximo del flujo secundario DS2 que se puede insertar en una trama del flujo principal DS1, por una parte, y la preocupación de preservar la calidad de la codificación de la señal de voz VS1 en el flujo principal DS1, por otra parte. Al estar fijado el número Smax, el 35 número S depende de la velocidad del flujo secundario DS2. La relación S/N define lo que se puede llamar la tasa de inserción del flujo secundario DS2 en el flujo principal DS1 para la trama actual F[i], definiendo la relación Smax/N la tasa de inserción máxima. En un ejemplo donde se utiliza un vocodificador TETRAPOL (para el cual N = 120) con h(i) = 10 x i, k = 5 y S = 50, se obtiene para la inserción del flujo secundario un canal de velocidad media de 1215 bit(s. Tal velocidad 40 permite la inserción de un flujo de datos secundarios generado por un codec de tipo MF-MELP de 1200 bit/s (necesitándose 81 bitas en 67,5 ms) descrito en NATO STANG 4591. Dicho de otro modo, la tasa de inserción obtenida es suficiente para transmitir discretamente un flujo secundario que es también un flujo de voz generado por un vocodificador 20 de velocidad inferior a la del vocodificador principal 10. Un ejemplo de condición de inserción consiste en reemplazar (es decir, aplastar) los bits del flujo principal 45 DS1 normalmente generado según el algoritmo de codificación estándar aplicado por el vocodificador 10 a partir de la señal de voz VS1, por bits del flujo secundario DS2. Dicho de otro modo, las condiciones aplicadas a los parámetros de codificación de voz del flujo principal son condiciones de igualdad con los bits del segundo flujo, combinadas con condiciones de selección por operación Y lógica aplicando una máscara binaria sobre los bits que forman el flujo principal. 50
Este ejemplo es el más sencillo, pero no es el único. En efecto, unos algoritmos en el flujo principal y en el flujo secundario que utilizan cualquier gramática contextual o álgebra lineal o no lineal, incluido el álgebra de Boole y el álgebra temporal de Allen (véase el artículo “Maintaining Knowledge about Temporal Intervals” Communications of the ACM, 261/11/1983, pp. 832-84), de eventuales memorias auxiliares y que dependen del valor de terceros
parámetros, permiten al experto en la técnica definir condiciones complejas, que respetan por ejemplo propiedades estadísticas impuestas por el modelo de voz del flujo principal. Obsérvese en particular que el conjunto de los índices de las excitaciones en un diccionario tiene generalmente una distribución de los bits de 0 y 1 totalmente neutra respecto de un análisis estadístico de casos. Generalmente es posible cifrar el flujo secundario DS2 en una forma seudoaleatoria antes de la inserción, sin 5 modificar la distribución estadística de los 0 y 1 en los bits modificados del flujo principal. En la hipótesis de un modelo de codificación de voz que conduce a un flujo codificado del cual algunas subtramas tendrían una correlación hacia 0 o hacia 1, el generador seudoaleatorio anteriormente mencionado o un algoritmo de cifrado del flujo secundario deberán tener también esta tendencia. Se entenderá que el número de bit condicionados durante la codificación varía de una trama a otra según 10 una ley de evolución conocida por el emisor y por el receptor que se suponen que están sincronizados. La sincronización del emisor y del receptor en lo relativo a la aplicación de las máscaras de trama y/o de las máscaras de bits resulta de la sincronización general entre estos dos equipos. Típicamente, esta sincronización está garantizada por el etiquetado de las tramas con la ayuda de valores generados por un contador de tramas. De manera conocida, la sincronización general entre el emisor y el receptor también pede proceder, en su totalidad o 15 como complemento, de elementos de sincronización (motivos de bits particulares) insertados en el flujo principal DS1. El codificador 100 del emisor y el descodificador del receptor comparten una misma información inicial que permite determinar la subserie de los grupos de tramas y de las subtramas donde la inserción del flujo secundario tiene lugar. Esta información puede comprender un vector de inicialización de los generadores seudoaleatorios 5 y 20 6. Puede ser fija. También puede depender, por ejemplo, de la velocidad medio impuesta por el flujo secundario, o también depender de parámetros no condicionados del codec principal 10 calculados durante la codificación del flujo principal. Tal como se representa en la figura 3, el codificador 100 comprende un módulo 11 que es un módulo material y/o lógico de síntesis de los parámetros de predicción lineal, que recibe una información LP 25 correspondiente a los parámetros de predicción lineal (coeficientes del filtro de predicción lineal a corto plazo). La información LP se pasa por la entrada de una unidad lógica 12, por ejemplo un multiplexor, que es controlado por el flujo de máscaras de tramas FS y el flujo de máscaras de bits BS. La unidad 12 genera en salida una información LP’ correspondiente a la información LP de la que algunos bits al menos para algunas tramas al menos, se han modificado por la aplicación de las condiciones que resultan del flujo secundario DS2 por la máscara de trama y la 30 máscara de bits asociados a la trama actual. Una memorización de la información LP’ con una profundidad de memorización correspondiente a un número determinado P de tramas sucesivas, se puede prever para el módulo 11. El codificador 100 comprende también un módulo 21 que es un módulo material y/o lógico de síntesis de los parámetros de excitación adaptativa, que recibe en entrada la información LP’ y que emite en salida una 35 información LPT correspondiente a los parámetros de excitación adaptativa (que define un primer vector de cuantificación y una ganancia asociada para el filtro de síntesis a corto plazo). La información LPT se pasa por la entrada de una unidad lógica 22, por ejemplo, un multiplexor, que es controlado por el flujo de máscaras de tramas FS y el flujo de máscaras de bits BS. La unidad 22 genera en salida una información LTP’ correspondiente a la información LTP del cual algunos bits al menos para algunas tramas y/o para algunas subtramas al menos, se han 40 modificado por aplicación de las condiciones que resultan del flujo secundario DS2 por la máscara de trama y la máscara de bits asociados a la trama actual. Una memorización de la información LTP’, con una profundidad de memorización correspondiente a un número determinado Q de subtramas sucesivas de la trama actual (Q≤M-1), se puede prever para el módulo 21.
El codificador 100 comprende finalmente un módulo 31 que es un módulo material y/o lógico de síntesis de 45 los parámetros de excitación fija que recibe en entrada la información LPT’ y que emite en salida una información FIX correspondiente a los parámetros de excitación fija (que define una segundo vector de cuantificación y una ganancia asociada para el filtro de síntesis a corto plazo). La información FIX se pasa por la entrada de una unidad lógica 32, por ejemplo, un multiplexor, que es controlado por el flujo de máscaras de tramas FS y el flujo de máscaras de bits BS. La unidad 32 genera en salida una información FIX’ correspondiente a la información FIX de 50 la cual algunos bits al menos para algunas tramas y/o para algunas subtramas al menos, se han modificado por aplicación de las condiciones que resultan del flujo secundario DS2 por la máscara de trama y la máscara de bits asociados a la trama actual. Una memorización de la información FIX’, con una profundidad de memorización correspondiente a un número determinado R de subtramas sucesivas de la trama actual (R≤M-1), se prevé para el módulo 21. Además, una memorización de la información FIX’, con una profundidad de memorización 55
correspondiente por ejemplo a un número determinado W de subtramas sucesivas de la trama actual (W≤M-1), se prevé para el módulo 21. Para cada trama actual, la información LP’ (F[i]) correspondiente a los parámetros de predicción lineal de la trama, las informaciones LPT’(SF[1]),..... LPT’(SF[M]) que corresponden a los parámetros de excitación adaptativa respectivamente para cada una de las subtramas SF[1] a SF[M] de la trama y las informaciones FIX’(SF[1]), ... 5 LPT’(SF[M]) que corresponden a los parámetros de excitación fija para cada una de las subtramas SF[1] a SF[m] de la trama, se transmiten en entrada de un multiplexor 41 que las concatena para formar una trama del flujo principal DS1. Las memorizaciones en cuestión anteriormente permiten atenuar el efecto de las condiciones aplicadas a los bits de los parámetros de predicción lineal, parámetros de excitación adaptativa y/o parámetros de excitación 10 fija, respecto de la fidelidad del flujo principal DS1 a la señal de voz fuente VS1. En efecto, estas memorizaciones permiten un efecto de deslizamiento en el cálculo de los parámetros, de manera que, para una trama determinada, las condiciones aplicadas a primeros parámetros son al menos parcialmente compensados desde el punto de vista perceptual, por el cálculo de parámetros calculados a continuación a partir de una síntesis de voz basada en dichos primeros parámetros. 15 Más precisamente, se pueden escribir las siguientes relaciones, donde f designa una función que traduce el análisis por síntesis: 1.- LP’(F[i])=f(LP’(F[i-1]) LP’(F[i-2]),..... LP’(F[i-P]) 2.- LTP’(SF[i])=f(LTP’(SF[i-1]) LP’([i-R]),..... LTP’(SF[i-R], 20 FIX’(SF[i-1])..... FIX’(SF[i-W]); 3.- FIX’(SF[i])=f( FIX’(SF[i-1]),... FIX’(SF[i-W]). Estas compensaciones, y también el hecho de que la inserción de los bits del flujo secundario no es aleatoria, permiten alcanzar en la práctica, para algunos vocodificadores tasas de inserción del orden del 10% sin generar degradación (desde el punto de vista perceptual) de la señal de voz VS1 superior a lo que genera una tasa 25 de error de bit residual (después de la codificación de canal) del orden de algunos %. Ahora se van a describir las implicaciones del procedimiento del lado de receptor. Obsérvese en primer lugar que, para un equipo receptor que no trata el flujo secundario DS2, la descodificación de las tramas del flujo DS1 recibidas, se efectúa sólo según el algoritmo de síntesis estándar del vocodificador 10 del equipo emisor. 30 Para un equipo receptor que trata el flujo secundario DS2, la recuperación de la información codificada por los bits de este flujo secundario necesita una sincronización del equipo con el equipo emisor de los medios de extracción del flujo secundario DS2 a partir del flujo principal DS1 idéntico al codec 20 del equipo emisor. Se hace referencia al esquema de la figura 4, que muestra de manera esquemática los medios de un vocodificador 10a de equipo receptor destinado al tratamiento del flujo secundario transmitido gracias al 35 procedimiento según la invención. El vocodificador 10a, en su caso después del desmultiplexado y la descodificación de canal, recibe el flujo principal DS1 en entrada, y emite una señal de voz VS1’ en salida. La señal VS1’ es menos fiel a la señal de voz fuente VS1 (figura 3) que lo sería en ausencia de aplicación del procedimiento de inserción según la invención. Esto traduce la pérdida de calidad de la codificación efectuada 40 del lado del emisor, debido a las condiciones exteriores aplicadas al vocodificador 1 del equipo emisor. El equipo receptor también puede comprender un medio de restitución de la señal de voz VS1’ por ejemplo, un altavoz o similar. Como ya se ha expuesto anteriormente, los protocolos de transmisión conocidos prevén una sincronización general del equipo receptor con el equipo emisor. La realización de la invención no requiere por lo 45 tanto medios particulares à este respecto.
Para la extracción del flujo secundario, el vocodificador 10a comprende un generador de máscaras de tramas 3a y un generador de máscaras de bits 4a, respectivamente asociados a un generador seudoaleatorio 5a y a un generador seudoaleatorio 6a, que son idénticos y dispuestos del mismo modo que los medios respectivamente, 3, 4, 5 y 6 del vocodificador 10 el equipo emisor (figura 3). Se observará que los generadores 5a y 50
6a del receptor reciben la misma clave secreta, respectivamente Kf y Kb, que los generadores 5 y 6 del vocodificador 10 del equipo emisor. Estas claves se almacenan en una memoria ad hoc de los equipos. Los generadores 3a y 4a generan respectivamente un flujo de máscaras de tramas Fsa y un flujo de máscaras de bits Bsa, que se proporcionan en entrada de un descodificador 100a del vocodificador 10a. La extracción de los bits del flujo secundario DS2 se realiza por aplicación síncrona (por ejemplo por 5 operaciones Y lógica) de las máscaras de tramas y de las máscaras de bits en entrada del descodificador 100a (por ejemplo por operaciones Y lógica), sin que esto afecte a la descodificación del flujo principal DS1 por este último. A este respecto, el flujo DS1 es proporcionado en entrada del descodificador 100a por una unidad lógica 7a, que extrae el flujo de información secundaria DS2 del flujo de información principal DS1 bajo el control del flujo de máscaras de tramas Fsa y del flujo de máscaras de bits Bsa. 10 El equipo receptor también puede comprender un codec secundario, idéntico al codec 20 del equipo emisor para la descodificación del flujo secundario DS2. Cuando este flujo es un flujo de voz, el codec secundario genera una señal de voz que puede ser restituida por un altavoz o similar. Se observará que la fluctuación de la tasa de transmisión de los bits del flujo secundario DS2 no plantea ningún problema particular del lado del receptor, ya que el flujo secundario DS2 es proporcionado en entrada por un 15 codec secundario de velocidad variable como es el caso de todos los vocodificadores del mercado. En efecto, tal codec comprende una memoria intermedia de entrada ("Input Buffer" en inglés) en la cual los datos del flujo DS2 se almacenan para su descodificación. Basta con asegurarse de que la memoria intermedia de entrada no está nunca vacía. A este respecto, se determina la tasa de inserción que conviene, teniendo en cuenta en particular la velocidad binaria del codificador 100 y el vocodificador secundario 20 y los objetivos de preservación de la fidelidad 20 del flujo principal VS1 a la señal de voz VS1. Teniendo en cuenta las tasas de inserción elevadas obtenidas en la práctica (del orden del 10%), esta cuestión de la alimentación del vocodificador secundario del equipo receptor no debería plantear ningún problema, con un vocodificador principal 10 de tipo AMR en su modo de codificación de 12,2 kbits/s y un vocodificador secundario 20 de velocidad aproximadamente diez veces menor. Por otra parte, en el caso en que el flujo secundario es un flujo de voz y con el fin de proporcionar al 25 segundo descodificador un flujo regular de tramas, se pueden opcionalmente memorizar las secuencias y no empezar inmediatamente la descodificación. En el caso en que el flujo secundario es un flujo de datos transparentes, se propone concatenarlos y tratarlos como si se hubiesen transmitido mediante una mensajería corta de longitud máxima (servicio SMS en GSM, por ejemplo), y añadir un código convolutivo corrector de errores. Alternativamente, el flujo de datos 30 transparentes se puede enviar a un módulo de cifrado o a un módulo de transcodificación y de síntesis de tipo “Tex-to-Speech”. Ahora de volverá a la descripción general de las modalidades de aplicación del procedimiento de transmisión según la invención La elección de los bits de una trama determinada del flujo principal que experimentan la aplicación de la 35 condición del flujo secundario se determina según las particularidades de cada aplicación. Se aportan a continuación varias realizaciones posibles a este respecto, así como otras particularidades y ventajas de la invención. En una realización posible, se imponen unas condiciones durante la codificación sobre el valor de cero, varios o todos los bits de la trama que están asociados a un vector de excitación de tipo determinado, adaptativa o 40 fija, antes de efectuar las iteraciones que permiten calcular los parámetros que dependen de dicho vector de excitación en virtud de las memorizaciones realizadas en el vocodificador. Estos bits de valor condicionada son entonces las informaciones del flujo secundario transportadas por la trama y constituyen el canal del flujo de información secundaria DS2. Dicho de otro modo, el flujo secundario se inserta imponiendo valores a unos bits que forman los parámetros de los vectores de excitación adaptativa o fija. Esto se puede eventualmente extender 45 aplicando condiciones simultáneamente a los vectores de excitación del otro tipo, respectivamente fija o adaptativa. Cuando la transmisión entre el emisor y el receptor prevé un cifrado parcial de las tramas del flujo principal (es decir, un cifrado de solamente algunos bits en cada trama), la máscara de bits puede ventajosamente coincidir con un conjunto de bits no cifrados de una trama. Esto permite al equipo receptor que desempeña la función de pasarela efectuar la extracción del flujo secundario insertado en el flujo principal sin disponer de medios para 50 descifrar el flujo principal.
Esto es particularmente útil, a la vez que se preserva la confidencialidad del flujo principal, bajo la hipótesis aproximada de linealidad del modelo de voz del vocodificador, es decir, considerando que los parámetros residuales o de excitación de las cuerdas vocales no son correlacionados con los coeficientes que describen la envoltura
espectral de respuesta del conducto vocal. Dicho de otro modo, esta realización del procedimiento se caracteriza porque el flujo de información secundaria se inserta imponiendo condiciones a bits no cifrados de parámetros del modelo de voz del flujo principal. Esta realización se ilustra mediante un ejemplo relativo a un vocodificador EFR (véase más arriba) utilizado como codec principal. Se elige la utilización de los bits entre los bits no protegidos de cada trama como canal para 5 el flujo secundario, aplastando su valor calculado por el algoritmo de codificación fuente del flujo principal por aplicación de una máscara binaria sobre los 78 bits no protegidos de cada trama. Estos 78 bits no protegidos están identificados en la tabla 6 (cuyo título es “Ordering of Enhanced Full Rate Speech Parameters for the Channel Encoder” en la especificación ETSI EN 300 909 V8.5.1 GSM 05.03 “Channel coding”) y se refieren a un subconjunto de los bits que describen los vectores de excitación fijos. Con estos 78 bits de clase 2 por trama de 20 ms, se 10 obtiene un canal secundario de velocidad nominal de 3900 bit/s. Se pueden utilizar preferiblemente los bits medios sensibles del modo de codificación 12,2 kbit/s del codec AMR (véase más arriba) identificados por orden de sensibilidad en la tabla B.8 (cuyo título es (Orderinf of the Speech Encoder Bits from de 12,2 kbit/s Mode” en la especificación 3GPP TS26.101 “Adaptative Multi-Rate (AMR) Speech Codec Frame Structure”). Por lo tanto también es posible introducir en el modo de codificación de 12,2 kbit/s del codec AMR, el flujo 15 de un codec secundario, por ejemplo el codificador MELP 1200/2400 bit/s descrito en NATO STANAG 4591, que necesita 81 bits por 67,5 ms a 1200 bit/s (respectivamente 54 bits por 22,5 ms 2400 bit/s), revestido en su propia codificación correctora de errores (tasa 2/3 FEC), por ejemplo, que protege el 100% de los bits a 1200 bit/s (respectivamente el 50% de los bits a 2400 bit/s), y/o revestido en tramas de negociación de interoperabilidad de seguridad de tipo FNBDT (“Future Narrow Band Digital Terminal”) definidas por la OTAN o de un tipo de protocolo 20 de seguridad más ligero. En otra realización, aplicable a los vocodificadores que utilizan un algoritmo basado en la selección de excitaciones cuantificadas en un diccionario, la condición consiste en imponer un valor de excitación determinado extraído del diccionario. En una variante, el diccionario está dividido en varios subdiccionarios, y la condición consiste en imponer uno de estos subdiccionarios. Otra variante comprende la combinación de los dos tipos de 25 condición anteriores. Durante la descodificación del flujo principal del lado del receptor, el conocimiento de la excitación recibida permite identificar el subdiccionario y/o la excitación en cuestión, y deducir la condición que determina los bits del flujo secundario. Obsérvese que a una permutación más o menos de las excitaciones, la condición de imposición del subdiccionario puede ser equivalente a la aplicación de las condiciones sobre los bits de bajo peso de los índices de excitación en el diccionario. 30 En otra realización, el flujo secundario define una codificación diferencial de los índices de vectores de excitación, por ejemplo de vectores de excitación fijos, en la subserie de tramas sucesivas del flujo principal. En otra realización, los bits condicionados pueden ser los bits de bajo peso de las excitaciones fijas (es decir, excitaciones no adaptativas) para cada trama de voz y eventualmente para cada subtrama definida en la trama de voz en el sentido del algoritmo de codificación del vocodificador 10. 35 En otra realización, el número y la posición de los bits condicionados se identifican para cada trama sucesiva en función de un algoritmo de cálculo de una máscara y de un elemento secreto conocido por el emisor y por el receptor, con el fin de aumentar las oportunidades de no-detección de la existencia del flujo secundario por un tercero. Otra realización, aplicable a un algoritmo de codificación que necesita varios vectores de excitación fija por 40 trama o subtrama, tal como el codec CELP para la voz de un flujo MPEG-4 (definido en la especificación ISO/IEC 14496-3 Sub-part 3) para el cual algunas excitaciones fijas de una trama se eligen a partir de cálculos anteriores y donde otras excitaciones fijas de la misma trama se calculan por análisis por síntesis en un diccionario (véase la especificación ISO/IEC 14496-3 §7.9.3.4 “Multi-Pulse Excitation for the bandwidth extensión tool”), consiste en imponer la condición en la elección por diccionario de la primera excitación fija y utilizar a continuación las 45 iteraciones de análisis por síntesis sobre la segunda excitación fija para subsanar el error impuesto por la condición sobre la primera excitación. En otra realización, la subserie de las tramas del flujo principal que se concatenan por la inserción del flujo secundario no comprende más que las tramas que presentan suficientemente energía y voz en el sentido del vocodificador. En una variante aplicable por ejemplo a los vocodificadores MELP (que definen varios niveles de 50 sonorización) o a los vocodificadores HVXC (del inglés “Harmonie Vector Excitation Codec” que son vocodificadores partamétricos de un flujo de voz MPEG-4 definidos en la especificación ISO/IEC 14496-3 Sub-part 2), la subserie no se refiere más que a los segmentos poco sonorizados o toalmente no-sonorizados de las tramas.
Cuando la condición se aplica a los parámetros de excitación, por ejemplo sobre los índices de excitación
fijos, los parámetros de una subtrama del flujo principal DS1 permanecen totalmente conformes al modelo de codificación de voz del vocodificador 10. Sin embargo, la secuencia de las excitaciones fijas modificadas es quizás estadísticamente atípica para la voz humana o eventualmente atípica para el procedimiento de reconocimiento del locutor, según las condiciones aplicadas y el objetivo de fidelidad deseado. Para evitar que la presencia del flujo secundario en estas excitaciones no se pueda detectar en un equipo receptor, un tratamiento de los parámetros que 5 comprende un suavizado de las ganancias de las excitaciones fijas asociado a un tratamiento de los impulsos aislados de los vectores de excitación seguido de un postfiltrado después de la síntesis de voz, se pueden aplicar a la descodificación. Estos tratamientos permiten excluir secuencias acústicas que aparecen después de la transmisión en un canal con ruido, que serían imposible de pronunciar por un aparato vocal humano en el ambiente de un micrófono. Se trata por ejemplo de algunas secuencias de traqueteo, sonido sibilante, rechinar, silbidos u 10 otros, en el ruido de fondo que el vocodificador estándar no hubiese filtrado suficientemente durante la síntesis de voz debido a condiciones impuestas. De este modo, unos sonidos no-sonorizados indeseables que pueden volverse imperceptibles, se correlacionarían a las secuencias de excitación fija condicionadas según el procedimiento de la invención. Sin embargo, cuando la aplicación de condiciones corre el riesgo de conducir a la percepción de sonidos 15 no-sonorizados indeseables correlacionados a una secuencia de excitación fija atípica de una voz humana y no filtrada por la filtración del codificador estándar del vocodificador, la subserie de las tramas sobre las cuales se aplican las condiciones se puede definir en función de análisis estadísticos previos sobre los valores de los parámetros consecutivos del modelo de voz del vocodificador, por ejemplo aprovechando la textura de los parámetros de la voz, definida por una inercia, una entropía o una energía derivada de la probabilidad de las 20 secuencias de valores de los parámetros, por ejemplo en ocho tramas consecutivas representativas de la duración de un fonema. Para cada realización, la eficiencia de la síntesis del flujo principal DS1, es decir, la fidelidad a la señal VS1, es inversamente proporcional a la velocidad relativa del flujo secundario DS2. La eficiencia de fidelidad VS1 se puede, sin embargo, alcanzar cuando el procedimiento propuesto mantiene sin variar algunos atributos subjetivos 25 (por ejemplo, algunos criterios sicoacústicos) de la fuente 1. Se puede medir por mediciones estadísticas (“Mean Opinion Score” o MOS) según una escala estandarizada (véase la recomendación ITU-T P. 862 “Perceptural evaluation of speech quality – PESQ”) En algunas realizaciones, la degradación de la calidad subjetica del flujo de voz DS1 procedente del vocodificador 10, que es debida a la inserción del flujo secundario DS2, se supone aceptable para justificar la 30 aplicación del procedimiento propuesto. Es particularmente el caso, cuando el flujo secundario es igualmente un flujo de voz y que el contenido auditivo del flujo principal es mucho menos importante que el contenido del flujo secundario para el oyente legítimo. En efecto, la percepción sicoacústica de la eventual presencial del flujo secundario durante la audición del flujo descodificado y restituido no permite ayudar a localizar el flujo secundario en el flujo principal y por lo tanto aportar una prueba formal de su existencia. Esto es en particular el caso para un 35 vocodificador 10 de baja velocidad utilizado en un entorno con ruido, ya que la descodificación y la restitución del flujo principal DS1 proporcionan secuencias de voz conformes al modelo del vocodificador 10. También es el caso, en algunos límites sicoacústicos, cuando se debe asegurar la velocidad mínima del flujo secundario en detrimento de la calidad de restitución del flujo principal. Con el fin de preservar de la mejor manera la inteligibilidad de la síntesis del flujo principal DS1, se prefiere 40 no aplicar condiciones a los parámetros espectrales de predicción lineal (LP) que definen el filtro a corto plazo, y no perturbar demasiado los parámetros a largo plazo (LPT) adaptados a cada subtrama, con el in de conservar características subjetivas consideradas esenciales en la señal de voz VS1. En particular, una realización consiste en aplicar preferiblemente las condiciones a subtramas diferentes de las subtramas sobre las cuales las ventanas de análisis a largo plazo de la trama se concatenan, a saber, por ejemplo, la segunda y la cuarta subtrama para el 45 modo de codificación 12,2 kbit/s del vocodificador AMR evocado más arriba (véase la especificación 3GPP TS 26.090 V5.00, §5.21 “Windowing and auto-correlation computation”). En particular, se evitará perturbar muchos segmentos sonorizados, generalmente portadores de la mayoría de las características de identificación del locutor.
A título de ejemplo elaborado, en el modo de codificación de 12,2 kbit/s del vocodificador AMR, es posible imponer una condición a la elección de la excitación adaptada imponiendo valores iniciales a las muestras au vector 50 (n) n=0, ..., 39, en la ecuación recursiva (38) de cálculo del vector adaptativo descrito en el párrafo 5.6.1. (cuyo título es “Adaptative Codebook Search”) de la especificación 3GPP TS 26.090 evocada anteriormente, sustituyendo los valores del residuo LP, calculado en la ecuación (36), 40 valores extraídos del flujo secundario. El error entre la señal del flujo principal y la señal sintetizada por el filtro a corto plazo con la contribución del vector adaptativo condicionado se compensa con la elección del vector de excitación fija que intenta subsanar el error residual (por 55 ejemplo el error residual cuadrático) de la predicción a largo plazo en la misma subtrama, así como los vectores de
excitación de las subtramas sucesivas. De este modo los vectores de excitación condicionados codifican el flujo secundario como residuo adaptativo por encima de la respuesta del filtro de síntesis a corto plazo del flujo principal corregido por el residuo fijo. En otro ejemplo, para un modelo de voz del vocodificador paramétrico de tipo STC (del inglés, “Sinusoidal Transform Coding”) o de tipo MBE (“Multi Band Excitation”) por ejemplo según la especificación de estándares 5 ANSI/TIA/EIA 102.BABA (“APCO Project 25 Vocoder Description”), una realización conduce a interesarse por los bits de bajo peso de los parámetros de amplitud de los harmónicos de los segmentos de las tramas o a los parámetros de amplitudes de muestras de la envoltura espectral. En un codec MBE, los parámetros de excitación son la frecuencia fundamental así como la decisión sonorizada/no-sonorizada para cada banda de frecuencias. En lo antecede, se han descrito realizaciones que prevén la inserción de los bits del flujo secundario en 10 tramas de voz del flujo principal. Sin embargo, se sabe que el flujo principal DS1 contiene también tramas de silencio, que son tramas codificadas por el vocodificador 10 con una menor velocidad binaria y emitidas con una periodicidad menor que las tramas de voz, para sintetizar los periodos de silencios contenidos en la señal de voz VS1. Estas tramas de silencio sintetizan lo que se denomina un ruido de confort. Ahora bien, una realización del procedimiento puede prever, como variante o como complemento, la 15 inserción del flujo secundario por condiciones digitales sobre los valores de los parámetros descriptores del ruido de confort a generar como flujo principal. Esta realización se ilustra por ejemplo con relación a un codec EFR o AMR (véase más arriba) utilizado como codec principal. En los sistemas GSM y UMTS, las tramas que transportan ruido de confort (tramas de silencio) se denominan tramas SID (véase por ejemplo la especificación 3GPP TS 26.092 “Mandatory Speech 20 Codec Speech Processing Functions; AMR Speech Codec; Confort Noise Aspects” del ETSI). Más concretamente, las tramas consideradas aquí con las tramas SID-UPDATE que contienen 35 bits de parámetros de ruido de confort y un código corrector de error sobre 7 bits. En un sistema GSSM o UMTS, es la fuente la que controla la emisión de las tramas de silencio, es decir, el codec del emisor (a reserva de las interacciones con el proceso de detección de actividad vocal y de transmisión 25 discontinua, en particular en la vía descendente del repetidor hacia el terminal móvil). Por lo tanto es posible proceder por inserción del segundo flujo según un procedimiento similar al aplicable a una trama que contiene suficiente energía de voz (trama de voz). Alternativamente, es posible controlar la emisión de una trama de silencio particular a partir de la entrada analógica digitalizada del codec generando el ruido analógico de confort representativo de los 35 bits del flujo 30 secundario. En los sistemas GSM y UMTS, la frecuencia de las tramas de silencio se controla mediante la fuente o por el repetidor y corresponde bien a una trama de silencio cada 20 ms bien a una trama de silencio cada 160 ms, bien a una trama de silencio cada 480 ms para el codec EFR del sistema GSM. Esto determina la velocidad máxima para el flujo secundario en esta variante del procedimiento En una modalidad particular, es posible utilizar el canal de transmisión dúplex para enviar tramas de 35 silencio cuando el locutor es un segundo participante en la comunicación o en los silencios en una primera conversación, es decir, entre los grupos de fonemas emitidos según el flujo principal. Se observará que la especificación 3GPTP TS26.090 precisa que la dimensión del campo de codificación del ruido de confort del codec EFR, a saber 35 bits por trama de silencio, es idéntica a la dimensión del parámetro de excitación fija para este mismo codec. Esto significa que se puede aplicar las mismas condiciones y obtener una 40 velocidad de inserción mínima permanente utilizando todas las tramas independientemente de la naturaleza, voz o silencio, del flujo principal.

Claims (1)

  1. REIVINDICACIONES 1.- Procedimiento de transmisión de un flujo de información secundaria (DS2) entre un emisor y un receptor, que comprende la inserción de dicho flujo de información secundaria al nivel de un vocodificador paramétrico (100) del emisor que genera un flujo de información principal (DS1) que es un flujo de datos de voz que codifica una señal de voz (VS1) y que se transmite desde el emisor al receptor, 5 según el cual unos bits del flujo de información secundaria se insertan:
    - en solamente algunas de las tramas (F[i]) del flujo de información principal, seleccionadas por una máscara de tramas conocida por el emisor y por el receptor; y
    - en el interior de una trama seleccionada del flujo de información principal, en posiciones predefinidas imponiendo una condición a solamente algunos de los bits de la trama, seleccionados por una 10 máscara de bits conocida por el emisor y por el receptor;
    según el cual la máscara de tramas define una subserie (SF[m]) de grupos de tramas consecutivas en cada una de las cuales se insertan bits del flujo de información secundaria; y la longitud en número de tramas (M) de un grupo de tramas consecutivas es sensiblemente igual a la profundidad de memorización de las tramas en el vocodificador paramétrico. 15 2.- Procedimiento según la reivindicación 1, según el cual la máscara de tramas es variable y se genera según un algoritmo común paralelamente en el emisor y en el receptor. 3.- Procedimiento según una cualquiera de las reivindicaciones anteriores, según el cual el modelo de fuente del vocodificador paramétrico que prevé, para algunas al menos de las tramas del flujo de información principal diferentes clases de bits en función de su sensibilidad respecto de la calidad de la codificación 20 de la señal de voz, la máscara de bits es tal que unos bits del flujo de información secundaria son insertados en estas tramas imponiendo una condición prioritariamente a los bits pertenecientes a la clase de bits menos sensible. 4.- Procedimiento según una cualquiera de las reivindicaciones 1 a 3, según el cual el flujo de información secundaria es un flujo de datos de voz que sale de otro vocodificador (20) que tiene una velocidad más baja que la velocidad del vocodificador paramétrico. 25 5.- Procedimiento según una cualquiera de las reivindicaciones 1 a 3, según el cual el flujo de información secundaria es un flujo de datos transparentes 6.- Procedimiento según una cualquiera de las reivindicaciones anteriores, según el cual el flujo de información secundaria se somete a codificación correctora de errores antes de su inserción en el flujo de información principal. 30 7.- Procedimiento según una cualquiera de las reivindicaciones anteriores, según el cual unos bits del flujo de información secundaria son insertados imponiendo valores a unos bits que pertenecen a parámetros de excitación de un filtro del modelo fuente del vocodificador paramétrico. 8.- Procedimiento según una cualquiera de las reivindicaciones anteriores, según el cual unos bits del flujo de información secundaria son insertados en tramas de silencio del flujo de información principal. 35 9.- Procedimiento según una cualquiera de las reivindicaciones anteriores, según el cual unos bits del flujo de información secundaria son insertados imponiendo condiciones a bits no cifrados a modo de un cifrado de extremo a extremo del flujo de información principal. 10.- Procedimiento según una cualquiera de las reivindicaciones anteriores, según el cual la condición es una condición de igualdad de los bits de la trama del flujo de información principal con los bits del flujo de información 40 secundaria insertados. 11.- Vocodificador paramétrico (100) que comprende, para la inserción de un flujo de información secundaria (DS2) en un flujo de información principal (DS1) que es generado por el vocodificador paramétrico a partir de una señal de voz (VS1), medios de inserción adaptados para insertar bits del flujo de información secundaria.
    - en solamente algunas de las tramas (F[i]) del flujo de información principal, seleccionadas por una 45 máscara de tramas conocida por el emisor y por el receptor; y
    - en el interior de una trama seleccionada del flujo de información principal, en posiciones predefinidas imponiendo una condición a solamente algunos de los bits de la trama, seleccionados por una máscara de bits conocida por el emisor y por el receptor;
    en el cual la máscara de tramas define una subserie de tramas consecutivas (SF[m]) en cada una de las cuales se insertan bits del flujo de información secundaria; y en el cual la longitud en número de tramas de la subserie de tramas consecutivas es sensiblemente igual a la profundidad de memorización de las tramas en el codec de voz paramétrico. 12.- Vocodificador paramétrico según la reivindicación 11, en el cual la máscara de tramas es variable y se 5 genera según un algoritmo basándose en una clave secreta. 13.- Vocodificador paramétrico según una cualquiera de las reivindicaciones 11 y 12 en el cual el modelo de fuente del vocodificador paramétrico que prevé, para algunas al menos de las tramas del flujo de información principal, diferentes clases de bits en función de su sensibilidad respecto de la calidad de la codificación de la señal de voz, la máscara de bits es tal que unos bits del flujo de información secundaria se insertan en estas tramas, 10 imponiendo una condición prioritariamente a los bits pertenecientes a la clase de bits menos sensible. 14.- Vocodificador paramétrico según una cualquiera de las reivindicaciones 11 a 13, que comprende, además, medios para someter el flujo de información secundaria a una codificación correctora de errores antes de su inserción en el flujo de información principal 15.- Vocodificador paramétrico según una cualquiera de las reivindicaciones 11 a 14, según el cual los medios 15 de inserción están adaptados para insertar bits del flujo de información secundaria imponiendo valores a bits pertenecientes parámetros de excitación de un filtro del modelo de fuente del vocodificador paramétrico. 16.- Vocodificador paramétrico según una cualquiera de las reivindicaciones 11 a 15, en el cual los medios de inserción están adaptados para insertar bits del flujo de información secundaria en tramas de silencio del flujo de información principal. 20 17.- Vocodificador paramétrico según una cualquiera de las reivindicaciones 11 a 16, en el cual los medios de inserción están adaptados para insertar bits del flujo de información secundaria imponiendo condiciones a bits no cifrados a modo de cifrado de extremo a extremo del flujo de información principal. 18.- Equipo terminal de un sistema de radiocomunicaciónes que comprende un vocodificador paramétrico según una cualquiera de las reivindicaciones 11 a 17. 25
ES04787314T 2003-09-05 2004-09-06 Procedimiento de transmisión de un flujo de información por inserción en el interior de un flujo de datos de voz, y codec paramétrico para su implementación. Expired - Lifetime ES2354024T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0310546 2003-09-05
FR0310546A FR2859566B1 (fr) 2003-09-05 2003-09-05 Procede de transmission d'un flux d'information par insertion a l'interieur d'un flux de donnees de parole, et codec parametrique pour sa mise en oeuvre

Publications (2)

Publication Number Publication Date
ES2354024T3 true ES2354024T3 (es) 2011-03-09
ES2354024T8 ES2354024T8 (es) 2011-04-12

Family

ID=34178831

Family Applications (1)

Application Number Title Priority Date Filing Date
ES04787314T Expired - Lifetime ES2354024T3 (es) 2003-09-05 2004-09-06 Procedimiento de transmisión de un flujo de información por inserción en el interior de un flujo de datos de voz, y codec paramétrico para su implementación.

Country Status (8)

Country Link
US (1) US7684980B2 (es)
EP (1) EP1665234B1 (es)
AT (1) ATE484821T1 (es)
CA (1) CA2541805A1 (es)
DE (1) DE602004029590D1 (es)
ES (1) ES2354024T3 (es)
FR (1) FR2859566B1 (es)
WO (1) WO2005024786A1 (es)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2898229B1 (fr) * 2006-03-06 2008-05-30 Eads Secure Networks Soc Par A Synchronisation cryptographique entrelacee
US8054969B2 (en) * 2007-02-15 2011-11-08 Avaya Inc. Transmission of a digital message interspersed throughout a compressed information signal
DE602008005593D1 (de) * 2007-06-15 2011-04-28 France Telecom Kodierung digitaler audiosignale
US8792473B2 (en) * 2008-12-18 2014-07-29 Motorola Solutions, Inc. Synchronization of a plurality of data streams
RU2547238C2 (ru) * 2010-04-14 2015-04-10 Войсэйдж Корпорейшн Гибкая и масштабируемая комбинированная обновляющая кодовая книга для использования в кодере и декодере celp
US8689089B2 (en) * 2011-01-06 2014-04-01 Broadcom Corporation Method and system for encoding for 100G-KR networking
CN103187065B (zh) 2011-12-30 2015-12-16 华为技术有限公司 音频数据的处理方法、装置和系统
US9165162B2 (en) * 2012-12-28 2015-10-20 Infineon Technologies Ag Processor arrangements and a method for transmitting a data bit sequence

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5291484A (en) * 1989-09-04 1994-03-01 Fujitsu Limited Relay and exchange system for time division multiplex data
US5319735A (en) * 1991-12-17 1994-06-07 Bolt Beranek And Newman Inc. Embedded signalling
US5937000A (en) * 1995-09-06 1999-08-10 Solana Technology Development Corporation Method and apparatus for embedding auxiliary data in a primary data signal
US5790759A (en) * 1995-09-19 1998-08-04 Lucent Technologies Inc. Perceptual noise masking measure based on synthesis filter frequency response
US5757788A (en) * 1996-01-11 1998-05-26 Matsushita Electric Ind. Digital radio communication system with efficient audio and non-audio data transmission
JP4456185B2 (ja) * 1997-08-29 2010-04-28 富士通株式会社 コピー防止機能を持つ見える透かし入り動画像記録媒体とその作成・検出および録画・再生装置
WO1999041094A1 (en) * 1998-02-17 1999-08-19 Mi-Jack Products Railwheel system for supporting loads on a road-traveling gantry crane
GB2340351B (en) * 1998-07-29 2004-06-09 British Broadcasting Corp Data transmission
WO2000039955A1 (en) * 1998-12-29 2000-07-06 Kent Ridge Digital Labs Digital audio watermarking using content-adaptive, multiple echo hopping
AU6533799A (en) * 1999-01-11 2000-07-13 Lucent Technologies Inc. Method for transmitting data in wireless speech channels
US7130309B2 (en) * 2002-02-20 2006-10-31 Intel Corporation Communication device with dynamic delay compensation and method for communicating voice over a packet-switched network

Also Published As

Publication number Publication date
DE602004029590D1 (de) 2010-11-25
US7684980B2 (en) 2010-03-23
EP1665234B1 (fr) 2010-10-13
WO2005024786A1 (fr) 2005-03-17
CA2541805A1 (fr) 2005-03-17
FR2859566A1 (fr) 2005-03-11
ES2354024T8 (es) 2011-04-12
FR2859566B1 (fr) 2010-11-05
US20060247926A1 (en) 2006-11-02
EP1665234A1 (fr) 2006-06-07
ATE484821T1 (de) 2010-10-15

Similar Documents

Publication Publication Date Title
ES2539174T3 (es) Aparato y método para ocultamiento de error en voz unificada con bajo retardo y codificación de audio (USAC)
ES2865099T3 (es) Procedimiento y aparato de ocultación de errores de trama y procedimiento y aparato de decodificación que usa los mismos
EP2382622B1 (en) Method and apparatus for generating an enhancement layer within a multiple-channel audio coding system
CN101836252B (zh) 用于在音频代码化系统中生成增强层的方法和装置
EP2382621B1 (en) Method and appratus for generating an enhancement layer within a multiple-channel audio coding system
Geiser et al. High rate data hiding in ACELP speech codecs
EP2070085B1 (en) Packet based echo cancellation and suppression
JP5283046B2 (ja) ピーク検出に基づく選択的スケーリングマスク計算
JP5285162B2 (ja) ピーク検出に基づいた選択型スケーリングマスク演算
US10504525B2 (en) Adaptive forward error correction redundant payload generation
US20100042416A1 (en) Coding/decoding method, system and apparatus
ES2354024T3 (es) Procedimiento de transmisión de un flujo de información por inserción en el interior de un flujo de datos de voz, y codec paramétrico para su implementación.
CA2293165A1 (en) Method for transmitting data in wireless speech channels
JPWO2008108080A1 (ja) 音声符号化装置及び音声復号装置
JPH06502930A (ja) 多重モード音声コーダのためのエラー保護
EP1397655A1 (en) Method and device for coding speech in analysis-by-synthesis speech coders
Heide et al. Universal Vocoder using Variable Data Rate Vocoding
Krasnowski Joint source-cryptographic-channel coding for real-time secure voice communications on voice channels
US20030158730A1 (en) Method and apparatus for embedding data in and extracting data from voice code
KR102132326B1 (ko) 통신 시스템에서 오류 은닉 방법 및 장치
Geiser et al. Binaural wideband telephony using steganography
EP3252763A1 (en) Low-delay audio coding
Woodard Digital coding of speech using code excited linear prediction