ES2718947T3

ES2718947T3 - Procedimiento y aparato para conmutar señales de voz o audio

Info

Publication number: ES2718947T3
Application number: ES17151713T
Authority: ES
Inventors: Zexin Liu; Lei Miao; Chen Hu; Wenhai Wu; Yue Lang; Qing Zhang
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2010-04-28
Filing date: 2011-04-28
Publication date: 2019-07-05
Anticipated expiration: 2031-04-28
Also published as: AU2011247719A1; JP2017033015A; EP2485029A1; CN101964189B; EP2485029B1; JP2015045888A; JP6027081B2; EP3249648A1; AU2011247719B2; BR112012013306B1; KR101377547B1; ES2635212T3; JP5667202B2; WO2011134415A1; BR112012013306B8; CN101964189A; EP2485029A4; JP6410777B2; BR112012013306A2; EP3249648B1

Description

DESCRIPCIÓN

Procedimiento y aparato para conmutar señales de voz o audio

Campo de la invención

La presente invención se refiere a tecnologías de comunicaciones y, en particular, a un procedimiento y un aparato para conmutar señales de voz o audio.

Antecedentes de la invención

En la actualidad, durante el proceso de transmisión de señales de voz o audio en una red, puesto que las condiciones de la red pueden variar, la red puede interceptar el flujo de bits de las señales de voz o audio transmitidas desde un codificador a la red con diferentes velocidades binarias, de modo que el descodificador puede descodificar las señales de voz o audio con diferentes anchos de banda a partir del flujo de bits interceptado.

En la técnica anterior, puesto que las señales de voz o audio transmitidas en la red tienen diferentes anchos de banda, la conmutación bidireccional desde/hacia una señal de voz o audio de banda de frecuencia estrecha hacia/desde una señal de voz o audio de banda de frecuencia ancha puede producirse durante el proceso de transmisión de señales de voz o audio. En las formas de realización de la presente invención, la señal de banda de frecuencia estrecha conmuta a una señal de banda de frecuencia ancha con una sola componente de banda de baja frecuencia a través de un muestreo ascendente y un filtrado paso bajo; la señal de voz o audio de banda de frecuencia ancha incluye tanto una componente de señal de banda de baja frecuencia como una componente de señal de banda de alta frecuencia.

Durante la implementación de la presente invención, el inventor ha descubierto al menos los siguientes problemas en la técnica anterior: Puesto que la información de señal de banda de alta frecuencia está disponible en señales de voz o audio de banda de frecuencia ancha pero está ausente en señales de voz o audio de banda de frecuencia estrecha, cuando señales de voz o audio con diferentes anchos de banda conmutan, puede producirse un salto de energía en las señales de voz o audio, lo que da como resultado una escucha incómoda y reduce de este modo la calidad de la señales de audio recibidas por un usuario.

El documento WO2009/056027, publicado el 7 de mayo 2009, da a conocer, desde la página 9, línea 6 a la página, línea 6, un procedimiento para estimar los parámetros de codificación de banda superior de N tramas de voz después de la conmutación usando los parámetros de codificación de banda superior de M tramas de voz almacenadas en memoria intermedia antes de la conmutación según la ecuación (1).

Las componentes de señal de banda superior de N tramas de voz después de la conmutación pueden reconstruirse con un algoritmo de descodificación TDBWE o TDAC. Según los requisitos de aplicaciones prácticas, M puede ser cualquier valor inferior a N.

Las componentes de señal de banda superior de N tramas de voz están conformadas en el dominio de tiempo para s 'U n )

formar una componente de señal de banda superior procesada > que, junto con la componente de señal de banda inferior descodificada J ^lo , se somete a un filtrado de síntesis para reconstruir una señal de desvanecimiento que varía en el tiempo.

La publicación "Artificial Bandwidth Extension without Side Information for ITU-T G.729.1" da a conocer una posible extensión del códec de voz y audio ITU-T G.729.1. El codificador G.729.1 está organizado jerárquicamente, es decir, la calidad obtenida aumenta con la cantidad de bits que se reciben para cada trama.

La publicación "G.729-based embedded variable bit-rate coder: An 8-32 kbit/s scalable wideband coder bitstream interoperable with G.729; G.729.1 (05/06)" da a conocer una aparición gradual de la señal de banda superior después de una conmutación de banda estrecha a banda ancha, mientras que la transición de banda ancha a banda estrecha es instantánea.

Resumen de la invención

Las formas de realización de la presente invención proporcionan un procedimiento y un aparato para conmutar señales de voz o audio a señales de voz o audio conmutadas de manera suave entre diferentes anchos de banda, lo que mejora la calidad de la señales de audio recibidas por un usuario.

Un procedimiento de conmutación de señales de voz o audio incluye:

cuando se produce una conmutación desde una señal de voz o audio de banda de frecuencia ancha a una señal de voz o audio de banda de frecuencia estrecha,

predecir una información de estructura precisa y una información de envolvente correspondientes a una primera señal de banda de alta frecuencia de una trama actual de una señal de voz o audio;

ponderar la información de envolvente predicha e información de envolvente de M tramas anteriores correspondiente a una segunda señal de banda de alta frecuencia de M tramas anteriores de la señal de voz o audio para obtener primera información de envolvente correspondiente a la primera señal de banda de alta frecuencia, donde M es igual a 1;

generar una primera señal de banda de alta frecuencia procesada según la primera información de envolvente y la información de estructura precisa predicha; y

sintetizar la primera señal de banda de alta frecuencia procesada y una primera señal de banda de baja frecuencia de la trama actual de señal de voz o audio en una señal de banda de frecuencia ancha.

Un aparato de conmutación de señales de voz o audio incluye:

un módulo de predicción, adaptado para: cuando se produce una conmutación desde una señal de voz o audio de banda de frecuencia ancha a una señal de voz o audio de banda de frecuencia estrecha, predecir una información de estructura precisa y una información de envolvente correspondientes a una primera señal de banda de alta frecuencia de una trama actual de una señal de voz o audio;

un primer módulo de generación, adaptado para ponderar la información de envolvente predicha e información de envolvente de M tramas anteriores correspondiente a una segunda señal de banda de alta frecuencia de M tramas anteriores de la señal de voz o audio para obtener primera información de envolvente correspondiente a la primera señal de banda de alta frecuencia, donde M es igual a 1;

un segundo módulo de generación, adaptado para generar una primera señal de banda de alta frecuencia procesada según la primera información de envolvente y la información de estructura precisa predicha; y un primer módulo de sintetización, configurado para: sintetizar la primera señal de banda de alta frecuencia procesada y una primera señal de banda de baja frecuencia de la trama actual de señal de voz o audio en una señal de banda de frecuencia ancha.

Usando el procedimiento y el aparato de conmutación de señales de voz o audio en las formas de realización de la presente invención, la primera señal de banda de alta frecuencia de la trama actual de señal de voz o audio se procesa según la segunda señal de banda de alta frecuencia de las M tramas anteriores de señales de voz o audio, de modo que la segunda señal de banda de alta frecuencia de las M tramas anteriores de señales de voz o audio puede conmutar suavemente a la primera señal de banda de alta frecuencia procesada; la primera señal de banda de alta frecuencia procesada y la primera señal de banda de baja frecuencia se sintetizan en una señal de banda de frecuencia ancha. De esta manera, durante el proceso de conmutación entre señales de voz o audio de diferentes anchos de banda, estas señales de voz o audio pueden conmutar suavemente, lo que reduce el efecto adverso del salto de energía en la calidad de audio subjetiva de las señales de voz o audio y mejora la calidad de las señales de voz o audio recibidas por el usuario.

Breve descripción de los dibujos

Para entender mejor la solución técnica de la presente invención, a continuación se describen los dibujos adjuntos para ilustrar las formas de realización de la presente invención. Evidentemente, los dibujos adjuntos solo se ofrecen a modo de ejemplo, y los expertos en la técnica pueden obtener otros dibujos a partir de estos dibujos adjuntos sin realizar investigaciones adicionales.

La FIG. 1 es un diagrama de flujo de una primera forma de realización de un procedimiento de conmutación de señales de voz o audio.

La FIG. 2 es un diagrama de flujo de una segunda forma de realización del procedimiento de conmutación de señales de voz o audio.

La FIG. 3 es un diagrama de flujo de una forma de realización de la etapa 201 mostrada en la FIG. 2.

La FIG. 4 es un diagrama de flujo de una forma de realización de la etapa 302 mostrada en la FIG. 3.

La FIG. 5 es un segundo diagrama de flujo de otra forma de realización de la etapa 302 mostrada en la FIG.3. La FIG. 6 es un diagrama de flujo de una forma de realización de la etapa 202 mostrada en la FIG. 2.

La FIG. 7 es un segundo diagrama de flujo de otra forma de realización de la etapa 201 mostrada en la FIG.2. La FIG. 7 es un tercer diagrama de flujo de otra forma de realización de la etapa 201 mostrada en la FIG. 2.

La FIG. 9 muestra una estructura de una primera forma de realización de un aparato de conmutación de señales de voz o audio.

La FIG. 10 muestra una estructura de una segunda forma de realización del aparato de conmutación de señales de voz o audio.

La FIG. 11 es un primer diagrama esquemático que ilustra una estructura de un módulo de procesamiento de la segunda forma de realización del aparato para conmutar señales de voz o audio.

La FIG. 12 es un diagrama esquemático que ilustra una estructura de un primer módulo de la segunda forma de realización del aparato de conmutación de señales de voz o audio.

La FIG. 13a es un segundo diagrama esquemático que ilustra una estructura del módulo de procesamiento de la segunda forma de realización del aparato para conmutar señales de voz o audio.

La FIG. 13b es un tercer diagrama esquemático que ilustra una estructura del módulo de procesamiento de la segunda forma de realización del aparato de conmutación de señales de voz o audio.

Descripción detallada de las formas de realización

Para facilitar el entendimiento del objeto, la solución técnica y el mérito de la presente invención, a continuación se describe en detalle la presente invención con referencia a las formas de realización y los dibujos adjuntos. Evidentemente, las formas de realización solo se ofrecen a modo de ejemplo y la presente invención no está limitada a tales formas de realización. Los expertos en la técnica relacionada pueden obtener otras formas de realización a partir de las formas de realización dadas en el presente documento sin realizar investigaciones adicionales exhaustivas, y la totalidad de dichas formas de realización están dentro del alcance de la presente invención.

La FIG. 1 es un diagrama de flujo de la primera forma de realización de un procedimiento de conmutación de señales de voz o audio. Como se muestra en la FIG. 1, usando el procedimiento de conmutación de señales de voz o audio, cuando se produce una conmutación de voz o audio, cada trama posterior a una trama de conmutación se procesa según las siguientes etapas:

Etapa 101: Cuando se produce una conmutación de una señal de voz o audio, ponderar la primera señal de banda de alta frecuencia de la trama actual de señal de voz o audio y la segunda señal de banda de alta frecuencia de la M trama, anterior de señales de voz o audio para obtener una primera señal de banda de alta frecuencia procesada, donde M es mayor o igual a 1.

Etapa 102: Sintetizar la primera señal de banda de alta frecuencia procesada y la primera señal de banda de baja frecuencia de la trama actual de señal de voz o audio en una señal de banda de frecuencia ancha. En esta forma de realización, las M tramas anteriores de señales de voz o audio se refieren a M tramas de señales de voz o audio antes de la trama actual. Las L tramas de señales de voz o audio antes de la conmutación se refieren a L tramas de señales de voz o audio anteriores a la trama de conmutación cuando se produce una conmutación de una señal de voz o audio. Si la trama de voz actual es una señal de banda de frecuencia ancha, pero la trama de voz anterior es una señal de banda de frecuencia estrecha o si la trama de voz actual es una señal de banda de frecuencia estrecha pero la trama de voz anterior es una señal de banda de frecuencia ancha, la señal de voz o audio conmuta y la trama de voz actual es la trama de conmutación.

Usando el procedimiento de conmutación de señales de voz o audio en esta forma de realización, la primera señal de banda de alta frecuencia de la trama actual de señal de voz o audio se procesa según la segunda señal de banda de alta frecuencia de las M tramas anteriores de señales de voz o audio, de modo que la segunda señal de banda de alta frecuencia de las M tramas anteriores de señales de voz o audio puede conmutar suavemente a la primera señal de banda de alta frecuencia procesada. De esta manera, durante el proceso de conmutación entre señales de voz o audio con diferentes anchos de banda, la señal de banda de alta frecuencia de estas señales de voz o audio puede conmutar suavemente. Finalmente, la señal de banda de alta frecuencia procesada y la primera señal de banda de baja frecuencia se sintetizan en una señal de banda de frecuencia ancha; la señal de banda de frecuencia ancha se transmite a un terminal de usuario, de modo que el usuario disfruta de una señal de voz o audio de alta calidad. Usando el procedimiento de conmutación de señales de voz o audio de esta forma de realización, señales de voz o audio con diferentes anchos de banda pueden conmutar suavemente, lo que reduce el impacto del cambio repentino de energía en la calidad de audio subjetiva de las señales de voz o audio y mejora la calidad de las señales de voz o audio recibidas por el usuario.

La FIG. 2 es un diagrama de flujo de la segunda forma de realización del procedimiento de conmutación de señales de voz o audio. Como se muestra en la FIG. 2, el procedimiento incluye las siguientes etapas:

Etapa 200: Cuando no se produce una conmutación de la señal de voz o audio, sintetizar la primera señal de banda de alta frecuencia de la trama actual de señal de voz o audio y la primera señal de banda de baja frecuencia en una señal de banda de frecuencia ancha.

Específicamente, la primera señal de voz o audio de banda de frecuencia de esta forma de realización puede ser una señal de voz o audio de banda de frecuencia ancha o una señal de voz o audio de banda de frecuencia estrecha. Cuando la primera señal de voz o audio de banda de frecuencia no conmuta durante la transmisión de la señal de voz o audio, la operación puede ejecutarse conforme a los dos casos siguientes: 1. Si la primera señal de voz o audio de banda de frecuencia es una señal de voz o audio de banda de frecuencia ancha, la señal de banda de baja frecuencia y la señal de banda de alta frecuencia de las señales de voz o audio de banda de frecuencia ancha se sintetizan en una señal de banda de frecuencia ancha. 2. Si la primera señal de voz o audio de banda de frecuencia es una señal de voz o audio de banda de frecuencia estrecha, la señal de banda de baja frecuencia y la señal de banda de alta frecuencia de las señales de voz o audio de banda de frecuencia estrecha se sintetizan en una señal de banda de frecuencia ancha. En este caso, aunque la señal es una señal de banda de frecuencia ancha, la banda de alta frecuencia es nula.

Etapa 201: Cuando la señal de voz o audio conmuta, ponderar la primera señal de banda de alta frecuencia de la trama actual de señal de voz o audio y la segunda señal de banda de alta frecuencia de las M tramas anteriores de señales de voz o audio para obtener una primera señal de banda de alta frecuencia procesada. M es mayor o igual a 1.

Específicamente, cuando se produce la conmutación entre señales de voz o audio con diferentes anchos de banda, la primera señal de banda de alta frecuencia de la trama actual de señal de voz o audio se procesa según la segunda señal de banda de alta frecuencia de las M tramas anteriores de señales de voz o audio, de modo que la segunda señal de banda de alta frecuencia de las M tramas anteriores de señales de voz o audio puede conmutar suavemente a la primera señal de banda de alta frecuencia procesada. Por ejemplo, cuando la señal de voz o audio de banda de frecuencia ancha conmuta a la señal de voz o audio de banda de frecuencia estrecha, debido a que la información de señal de banda de alta frecuencia correspondiente a la señal de voz o audio de banda de frecuencia estrecha es nula, la componente de la señal de banda de alta frecuencia correspondiente a la señal de voz o audio de banda de frecuencia estrecha necesita restaurarse para permitir que la señal de voz o audio de banda de frecuencia ancha conmute suavemente a la señal de voz o audio de banda de frecuencia estrecha. Sin embargo, cuando la señal de voz o audio de banda de frecuencia estrecha conmuta a la señal de voz o audio de banda de frecuencia ancha, puesto que la señal de banda de alta frecuencia de la señal de voz o audio de banda de frecuencia ancha no es nula, la energía de las señales de banda de alta frecuencia de señales de voz o audio de banda de frecuencia ancha de múltiples tramas consecutivas después de la conmutación debe debilitarse para permitir que la señal de voz o audio de banda de frecuencia estrecha conmute suavemente a la señal de voz o audio de banda de frecuencia ancha, de modo que la señal de banda de alta frecuencia de la señal de voz o audio de banda de frecuencia ancha conmuta suavemente a una señal real de banda de alta frecuencia. Al procesar la trama actual de señal de voz o audio en la etapa 201, las señales de banda de alta frecuencia de señales de voz o audio con diferentes anchos de banda pueden conmutar suavemente, lo que evita una escucha incómoda por parte del usuario debida al cambio repentino de energía en el proceso de conmutación entre la señal de voz o audio de banda de frecuencia ancha y la señal de voz o audio de banda de frecuencia estrecha, permitiendo al usuario recibir señales de audio de alta calidad. Para simplificar el proceso de obtención de la primera señal de banda de alta frecuencia procesada, la primera señal de banda de alta frecuencia y la segunda señal de banda de alta frecuencia de las M tramas anteriores de señales de voz o audio pueden ponderarse directamente. El resultado ponderado es la primera señal de banda de alta frecuencia procesada.

Etapa 202: Sintetizar la primera señal de banda de alta frecuencia procesada y la primera señal de banda de baja frecuencia de la trama actual de señal de voz o audio en una señal de banda de frecuencia ancha.

Específicamente, después de procesar la trama actual de señal de voz o audio en la etapa 201, la segunda señal de banda de alta frecuencia de las M tramas anteriores de señales de voz o audio puede conmutar suavemente a la primera señal de banda de alta frecuencia procesada de la trama actual; después, en la etapa 202, la primera señal de banda de alta frecuencia procesada y la primera señal de banda de baja frecuencia de la trama actual de señal de voz o audio se sintetizan en una señal de banda de frecuencia ancha, de modo que las señales de voz o audio recibidas por el usuario son siempre señales de voz o audio de banda de frecuencia ancha. De esta manera, las señales de voz o audio con diferentes anchos de banda conmutan suavemente, lo que ayuda a mejorar la calidad de las señales de audio recibidas por el usuario.

Usando el procedimiento de conmutación de señales de voz o audio de esta forma de realización, la primera señal de banda de alta frecuencia de la trama actual de señal de voz o audio se procesa según la segunda señal de banda de alta frecuencia de las M tramas anteriores de señales de voz o audio, de modo que la segunda señal de banda de alta frecuencia de las M tramas anteriores de señales de voz o audio puede conmutar suavemente a la primera señal de banda de alta frecuencia procesada. De esta manera, durante el proceso de conmutación entre señales de voz o audio con diferentes anchos de banda, la señal de banda de alta frecuencia de estas señales de voz o audio puede conmutar suavemente. Finalmente, la señal de banda de alta frecuencia procesada y la primera señal de banda de baja frecuencia se sintetizan en una señal de banda de frecuencia ancha; la señal de banda de frecuencia ancha se transmite a un terminal de usuario, de modo que el usuario disfruta de una señal de voz o audio de alta calidad. Usando el procedimiento de conmutación de señales de voz o audio de esta forma de realización, señales de voz o audio con diferentes anchos de banda pueden conmutar suavemente, lo que reduce el impacto del cambio repentino de energía en la calidad de audio subjetiva de las señales de voz o audio y mejora la calidad de las señales de audio recibidas por el usuario. Además, cuando señales de voz o audio con diferentes anchos de banda no conmutan, la primera señal de banda de alta frecuencia y la primera señal de banda de baja frecuencia de la trama actual de señal de voz o audio se sintetizan en una señal de banda de frecuencia ancha, de modo que el usuario puede obtener una señal de audio de alta calidad.

Según la solución técnica anterior, como se muestra en la FIG. 3, cuando se produce una conmutación desde una señal de voz o audio de banda de frecuencia ancha a una señal de voz o audio de banda de frecuencia estrecha, la etapa 201 incluye las siguientes etapas:

Etapa 301: Predecir información de estructura e información de envolvente precisas correspondientes a la primera señal de banda de alta frecuencia.

Específicamente, la señal de voz o audio puede dividirse en información de estructura y en información de envolvente precisas, de modo que la señal de voz o audio puede restaurarse según la información de estructura y la información de envolvente precisas. En el proceso de conmutar desde una señal de voz o audio de banda de frecuencia ancha a una señal de voz o audio de banda de frecuencia estrecha, puesto que solo una señal de banda de baja frecuencia está disponible en la señal de voz o audio de banda de frecuencia estrecha y la señal de banda de alta frecuencia es nula, para permitir que la señal de voz o audio de banda de frecuencia ancha conmute suavemente a la señal de voz o audio de banda de frecuencia estrecha, la señal de banda de alta frecuencia necesaria para la señal actual de voz o audio de banda de frecuencia estrecha tiene que restaurarse para implementar una conmutación suave entre señales de voz o de audio. En la etapa 301 se predice la información de estructura y la información de envolvente precisas predichas correspondientes a la primera señal de banda de alta frecuencia de la señal de voz o audio de banda de frecuencia estrecha.

Para predecir de manera más precisa la información de estructura y la información de envolvente precisas correspondientes a la trama actual de señal de voz o audio, la primera señal de banda de baja frecuencia de la trama actual de señal de voz o audio puede clasificarse en la etapa 301 y, después, la información de estructura y la información de envolvente precisas predichas correspondientes a la primera señal de banda de alta frecuencia se predicen según el tipo de señal de la primera señal de banda de baja frecuencia. Por ejemplo, la señal de voz o audio de banda de frecuencia estrecha de la trama actual puede ser una señal armónica, una señal no armónica o una señal transitoria. En este caso puede obtenerse la información de estructura y la información de envolvente precisas correspondientes al tipo de la señal de voz o audio de banda de frecuencia estrecha, de modo que la información de estructura precisa y la información de envolvente correspondientes a la señal de banda de alta frecuencia pueden predecirse de manera más precisa. El procedimiento de conmutación de señales de voz o audio de esta forma de realización no limita el tipo de señal de la señal de voz o audio de banda de frecuencia estrecha. Etapa 302: Ponderar la información de envolvente predicha y la información de envolvente de M tramas anteriores correspondiente a la segunda señal de banda de alta frecuencia de las M tramas anteriores de señales de voz o audio para obtener primera información de envolvente correspondiente a la primera señal de banda de alta frecuencia.

Específicamente, después de que la información de estructura y la información de envolvente precisas predichas correspondientes a la primera señal de banda de alta frecuencia de la trama actual se hayan predicho en la etapa 301, la primera información de envolvente correspondiente a la primera señal de banda de alta frecuencia puede generarse según la información de envolvente predicha y la información de envolvente de M tramas anteriores correspondiente a la segunda señal de banda de alta frecuencia de las M tramas anteriores de señales de voz o audio.

Específicamente, el proceso de generar la primera información de envolvente correspondiente a la primera señal de banda de alta frecuencia en la etapa 302 puede implementarse usando los dos modos siguientes:

1. Como se muestra en la FIG. 4, una forma de realización de obtención de la primera información de envolvente a través de la etapa 302 puede incluir las siguientes etapas:

Etapa 401: Calcular un coeficiente de correlación entre la primera señal de banda de baja frecuencia y la señal de banda de baja frecuencia de la N trama anterior de señales de voz o audio según la primera señal de banda de baja frecuencia y la señal de banda de baja frecuencia de las N tramas anteriores de señales de voz o audio, donde N es mayor o igual a 1.

Específicamente, la primera señal de banda de baja frecuencia de la trama actual de señal de voz o audio se compara con la señal de banda de baja frecuencia de las N tramas anteriores de señales de voz o audio para obtener un coeficiente de correlación entre la primera señal de banda de baja frecuencia de la trama actual de señal de voz o audio y la señal de banda de baja frecuencia de las N tramas anteriores de señales de voz o audio. Por ejemplo, la correlación entre la primera señal de banda de baja frecuencia de la trama actual de señal de voz o audio y la señal de banda de baja frecuencia de las N tramas anteriores de señales de voz o audio puede determinarse considerando la diferencia entre una banda de frecuencia de la primera señal de banda de baja frecuencia de la trama actual de señal de voz o audio y la misma banda de frecuencia de la señal de banda de baja frecuencia de las N tramas anteriores de señales de voz o audio en lo que respecta a la cantidad de energía o el tipo de información, de modo que pueda calcularse el coeficiente de correlación deseado. Las N tramas anteriores de señales de voz o audio pueden ser señales de voz o audio de banda de frecuencia estrecha, señales de voz o audio de banda de frecuencia ancha, o señales híbridas de señales de voz o audio de banda de frecuencia estrecha y señales de voz o audio de banda de frecuencia ancha.

Etapa 402: Determinar si el coeficiente de correlación está dentro de un primer intervalo de umbrales dado.

Específicamente, después de calcular el coeficiente de correlación en la etapa 401, se determina si el coeficiente de correlación está dentro del intervalo de umbrales dado. El objetivo de calcular el coeficiente de correlación es determinar si la trama actual de señal de voz o audio conmuta gradualmente desde las N tramas anteriores de señales de voz o audio o conmuta bruscamente desde las N tramas anteriores de señales de voz o audio. Es decir, el objetivo es determinar si sus características son idénticas y, después, determinar el peso de la señal de banda de alta frecuencia de la trama anterior en el proceso de predecir la señal de banda de alta frecuencia de la señal de voz o audio actual. Por ejemplo, si la primera señal de banda de baja frecuencia de la trama actual de señal de voz o audio tiene la misma energía que la señal de banda de baja frecuencia de la trama anterior de señal de voz o audio y sus tipos de señal son idénticos, esto indica que la trama anterior de señal de voz o audio está altamente correlacionada con la trama actual de señal de voz o audio. Por lo tanto, para restaurar de manera precisa la primera información de envolvente correspondiente a la trama actual de señal de voz o audio, la información de envolvente de banda de alta frecuencia o la información de envolvente transitoria correspondiente a la trama anterior de señal de voz o audio ocupa un mayor peso; en caso contrario, si hay una gran diferencia entre la primera señal de banda de baja frecuencia de la trama actual de señal de voz o audio y la señal de banda de baja frecuencia de la trama anterior de señal de voz o audio en lo que respecta a la energía y sus tipos de señales son diferentes, esto indica que la señal de voz o audio anterior está poco correlacionada con la trama actual de señal de voz o audio. Por lo tanto, para restaurar de manera precisa la primera información de envolvente correspondiente a la trama actual de señal de voz o audio, la información de envolvente de banda de alta frecuencia o la información de envolvente transitoria correspondiente a la trama anterior de señal de voz o audio ocupa un menor peso.

Etapa 403: Si el coeficiente de correlación no está dentro del primer intervalo de umbrales dado, ponderar según un primer peso fijado 1 y un primer peso fijado 2 para calcular la primera información de envolvente. El primer peso 1 se refiere al valor de ponderación de la información de envolvente de trama anterior correspondiente a la señal de banda de alta frecuencia de la trama anterior de señal de voz o audio, y el primer peso 2 se refiere al valor de ponderación de la información de envolvente.

Específicamente, si se determina que el coeficiente de correlación no está dentro del primer intervalo de umbrales dado en la etapa 402, esto indica que la trama actual de señal de voz o audio está ligeramente correlacionada con las N tramas anteriores de señales de voz o audio. Por lo tanto, la información de envolvente de M tramas anteriores o la información de envolvente transitoria correspondiente a la primera señal de voz o audio de banda de frecuencia de las M tramas anteriores o la información de envolvente de banda de alta frecuencia correspondiente a la trama anterior de señal de voz o audio tiene un ligero impacto en la primera información de envolvente. Cuando se restaura la primera información de envolvente correspondiente a la trama actual de señal de voz o audio, la información de envolvente de M tramas anteriores o la información de envolvente transitoria correspondiente a la primera señal de voz o audio de banda de frecuencia de las M tramas anteriores o la información de envolvente de banda de alta frecuencia correspondiente a la trama anterior de señal de voz o audio ocupa un menor peso. Por lo tanto, la primera información de envolvente de la trama actual puede calcularse según el primer peso fijado 1 y el primer peso 2. El primer peso 1 se refiere al valor de ponderación de la información de envolvente correspondiente a la señal de banda de alta frecuencia de la trama anterior de señal de voz o audio. La trama anterior de señal de voz o audio puede ser una señal de voz o audio de banda de frecuencia ancha o una señal de voz o audio de banda de frecuencia estrecha procesada. En el caso de la primera conmutación, la trama anterior de señal de voz o audio es la señal de voz o audio de banda de frecuencia ancha, mientras que el primer peso 2 se refiere al valor de ponderación de la información de envolvente predicha. El producto de la información de envolvente predicha y el primer peso 2 se suma al producto de la información de envolvente de trama anterior y el primer peso 1, y la suma ponderada es la primera información de envolvente de la trama actual. Además, señales de voz o audio transmitidas posteriormente son procesadas según este procedimiento y ponderación. La primera información de envolvente correspondiente a la señal de voz o audio se restaura hasta que conmute de nuevo una señal de voz o audio.

Etapa 404: Si el coeficiente de correlación está dentro del primer intervalo de umbrales dado, ponderar según un segundo peso fijado 1 y un segundo peso fijado 2 para calcular la información de envolvente transitoria. El segundo peso 1 se refiere al valor de ponderación de la información de envolvente antes de la conmutación, y el segundo peso 2 se refiere al valor de ponderación de la información de envolvente de M tramas anteriores, donde M es mayor o igual a 1.

Específicamente, si se determina que el coeficiente de correlación está dentro del intervalo de umbrales dado en la etapa 402, la trama actual de señal de voz o audio tiene características similares a las de las N tramas consecutivas anteriores de señales de voz o audio, y la primera información de envolvente correspondiente a la trama actual de señal de voz o audio se ve afectada en gran medida por la información de envolvente de las N tramas anteriores consecutivas de señales de voz o audio. En vista de la autenticidad de las envolventes de M tramas anteriores, la información de envolvente transitoria correspondiente a la trama actual de señal de voz o audio tiene que calcularse según la información de envolvente de M tramas anteriores y la información de envolvente antes de la conmutación.

Cuando se restaura la primera información de envolvente de la trama actual de señal de voz o audio, la información de envolvente de M tramas anteriores y la información de envolvente de L tramas anteriores antes de la conmutación deberían ocupar un mayor peso. Por tanto, la primera información de envolvente se calcula según la información de envolvente transitoria. El segundo peso 1 se refiere al valor de ponderación de la información de envolvente antes de la conmutación, y el segundo peso 2 se refiere al valor de ponderación de la información de envolvente de M tramas anteriores. En este caso, el producto de la información de envolvente antes de la conmutación y el segundo peso 1 se suma al producto de la información de envolvente de M tramas anteriores y el segundo peso 2, y el valor ponderado es la información de envolvente transitoria.

Etapa 405: Reducir el segundo peso 1 como en la etapa de primer peso, e incrementar el segundo peso 2 como en el etapa de primer peso.

Específicamente, cuando se transmiten las señales de voz o audio, el impacto de las señales de voz o audio de banda de frecuencia ancha antes de la conmutación en las señales de voz o audio de banda de frecuencia estrecha subsiguientes se reduce gradualmente. Para calcular la primera información de envolvente de manera más precisa, es necesario realizar un ajuste adaptativo en el segundo peso 1 y el segundo peso 2. Puesto que el impacto de las señales de voz o audio de banda de frecuencia ancha de L tramas antes de la conmutación en la señales de voz o audio subsiguientes disminuye gradualmente, el valor del segundo peso 1 se reduce gradualmente, mientras que el valor del segundo peso 2 aumenta gradualmente, lo que debilita el impacto de la información de envolvente antes de la conmutación en la primera información de envolvente. En la etapa 405, el segundo peso 1 y el segundo peso 2 pueden modificarse según las siguientes fórmulas: Segundo peso nuevo 1 = Segundo peso viejo 1 - Etapa de primer peso; Segundo peso nuevo 2 = Segundo peso viejo 2 Etapa de primer peso, donde la etapa de primer peso es un valor fijado.

Etapa 406: Determinar si un tercer peso fijado 1 es mayor que el primer peso 1.

Específicamente, el tercer peso 1 se refiere al valor de ponderación de la información de envolvente transitoria. El impacto de la información de envolvente transitoria en la primera información de envolvente de la trama actual puede determinarse comparando el tercer peso 1 con el segundo peso 1. La información de envolvente transitoria se calcula según la información de envolvente de M tramas anteriores y la información de envolvente antes de la conmutación. Por lo tanto, el tercer peso 1 representa realmente el grado del impacto que sufre la primera información de envolvente con respecto a la información de envolvente antes de la conmutación.

Etapa 407: Si el tercer peso 1 no es mayor que el primer peso 1, ponderar según el primer peso fijado 1 y el primer peso 2 para calcular la primera información de envolvente.

Específicamente, cuando se determina que el tercer peso 1 es menor o igual al primer peso 1 en la etapa 406, esto indica que la trama actual de señal de voz o audio está algo lejos de las L tramas de señales de voz o audio antes de la conmutación, y que la primera información de envolvente se ve afectada principalmente por la información de envolvente de M tramas anteriores. Por lo tanto, la primera información de envolvente de la trama actual puede calcularse según el primer peso fijado 1 y el primer peso 2.

Etapa 408: Si el tercer peso 1 es mayor que el primer peso 1, ponderar según el tercer peso fijado 1 y el tercer peso 2 para calcular la primera información de envolvente. El tercer peso 1 se refiere al valor de ponderación de la información de envolvente transitoria, y el tercer peso 2 se refiere al valor de ponderación de la información de envolvente predicha.

Específicamente, si se determina que el tercer peso 1 es mayor que el primer peso 1 en la etapa 406, esto indica que la trama actual de señal de voz o audio está más cerca de las L tramas de señales de voz o audio antes de la conmutación, y que la primera información de envolvente se ve afectada considerablemente por la información de envolvente antes de la conmutación. Por lo tanto, la primera información de envolvente de la trama actual tiene que calcularse según la información de envolvente transitoria. El tercer peso 1 se refiere al valor de ponderación de la información de envolvente transitoria, y el tercer peso 2 se refiere al valor de ponderación de la información de envolvente predicha. En este caso, el producto de la información de envolvente transitoria y el tercer peso 1 se añade al producto de la información de envolvente predicha y el tercer peso 2, y el valor ponderado es la primera información de envolvente.

Etapa 409: Reducir el tercer peso 1 como en la etapa de segundo peso, e incrementar el tercer peso 2 como en la etapa de segundo peso hasta que el tercer peso 1 sea igual a 0.

Específicamente, el objetivo de modificar el tercer peso 1 y el tercer peso 2 en el etapa 409 es el mismo que el de modificar el segundo peso 1 y el segundo peso 2 en la etapa 405, es decir, el objetivo es realizar un ajuste adaptativo en el tercer peso 1 y el tercer peso 2 para calcular la primera información de envolvente de manera más precisa cuando el impacto de las L tramas de señales de voz o audio antes de la conmutación en las señales de voz o audio transmitidas posteriormente se reduce gradualmente. Puesto que el impacto de las L tramas de señales de voz o audio antes de la conmutación en la señales de voz o audio subsiguientes disminuye gradualmente, el valor del tercer peso 1 disminuye gradualmente, mientras que el valor del tercer peso 2 aumenta gradualmente, lo que debilita el impacto de la información de envolvente antes de la conmutación en la primera información de envolvente. En la etapa 409, el tercer peso 1 y el tercer peso 2 pueden modificarse según las siguientes fórmulas: Tercer peso nuevo 1 = Tercer peso viejo 1 - Etapa de segundo peso; Tercer peso nuevo 2 = Tercer peso viejo 2 Etapa de segundo peso, donde la etapa de segundo peso es un valor fijado.

La suma del primer peso 1 y del primer peso 2 es igual a 1; la suma del segundo peso 1 y del segundo peso 2 es igual a 1; la suma del tercer peso 1 y del tercer peso 2 es igual a 1; el valor inicial del tercer peso 1 es mayor que el valor inicial del primer peso 1; y el primer peso 1 y el primer peso 2 son constantes fijas. Específicamente, el peso 1 y el peso 2 de esta forma de realización representan realmente los porcentajes de la información de envolvente antes de la conmutación y de la información de envolvente de M tramas anteriores de la primera información de envolvente de la trama actual. Si la trama actual de señal de voz o audio está cerca de las L tramas de señales de voz o audio antes de la conmutación y su correlación es alta, el porcentaje de la información de envolvente antes de la conmutación es alta, mientras que el porcentaje de la información de envolvente de M tramas anteriores es bajo. Si la trama actual de señal de voz o audio está algo lejos de las L tramas de señales de voz o audio antes de la conmutación, esto indica que la señal de voz o audio se transmite de manera estable en la red; o si la trama actual de señal de voz o audio está ligeramente correlacionada con las L tramas de señales de voz o audio antes de la conmutación, esto indica que las características de la trama actual de señal de voz o audio ya han cambiado. Por lo tanto, si la trama actual de señal de voz o audio se ve ligeramente afectada por las L tramas de señales de voz o audio antes de la conmutación, el porcentaje de la información de envolvente antes de la conmutación es bajo. Además, la etapa 404 puede ejecutarse después de la etapa 405. Es decir, el segundo peso 1 y el segundo peso 2 pueden modificarse en primer lugar, y después se calcula la información de envolvente transitoria según el segundo peso 1 y el segundo peso 2. Asimismo, la etapa 408 puede ejecutarse después de la etapa 409. Es decir, el tercer peso 1 y el tercer peso 2 pueden modificarse en primer lugar, y después se calcula la primera información de envolvente según el tercer peso 1 y el tercer peso 2.

2. Como se muestra en la FIG. 5, otra forma de realización para obtener la primera información de envolvente a través de la etapa 302 puede incluir además las siguientes etapas:

Etapa 501: Calcular un coeficiente de correlación entre la primera señal de banda de baja frecuencia y la señal de banda de baja frecuencia de la trama anterior de señal de voz o audio según la primera señal de banda de baja frecuencia de la trama actual de señal de voz o audio y la señal de banda de baja frecuencia de la trama anterior de señal de voz o audio.

Específicamente, para obtener una primera información de envolvente más precisa se calcula la relación entre una banda de frecuencia de la primera señal de banda de baja frecuencia de la trama actual de señal de voz o audio y la misma banda de frecuencia de la señal de banda de baja frecuencia de la trama anterior de señal de voz o audio. En esta forma de realización puede usarse "corr" para indicar el coeficiente de correlación. Este coeficiente de correlación se obtiene según la relación de energía entre la primera señal de banda de baja frecuencia de la trama actual de señal de señal de voz o audio y la señal de banda de baja frecuencia de la trama anterior de señal de voz o audio. Si la diferencia de energía es pequeña, "corr" es grande; en caso contrario, "corr" es pequeño. Para el proceso específico, véase el cálculo acerca de la correlación de las N tramas anteriores de señales de voz o audio en la etapa 401.

Etapa 502: Determinar si el coeficiente de correlación está dentro de un segundo intervalo de umbrales dado.

Específicamente, después de calcular el valor de "corr" en la etapa 501, se determina si el valor "corr" calculado está dentro del segundo umbral dado. Por ejemplo, el segundo intervalo de umbral puede representarse mediante c1 a c2 en esta forma de realización.

Etapa 503: Si el coeficiente de correlación no está dentro del segundo intervalo de umbrales dado, ponderar según el primer peso fijado 1 y el primer peso 2 para calcular la primera información de envolvente. El primer peso 1 se refiere al valor de ponderación de la información de envolvente de trama anterior correspondiente a la señal de banda de alta frecuencia de la trama anterior de señal de voz o audio, y el primer peso 2 se refiere al valor de ponderación de la información de envolvente predicha. El primer peso 1 y el segundo peso 2 son constantes fijas. Específicamente, cuando se determina que el valor de "corr" es menor que c1 o mayor que c2, se determina que la primera información de envolvente correspondiente a la trama actual de señal de voz o audio ese ve ligeramente afectada por la información de envolvente de la trama anterior de señal de voz o audio antes de la conmutación. Por lo tanto, la primera información de envolvente de la trama actual se calcula según el primer peso fijado 1 y el primer peso 2. El producto de la información de envolvente predicha y el primer peso 2 se suma al producto de la información de envolvente de trama anterior y el primer peso 1, y la suma ponderada es la primera información de envolvente de la trama actual. Además, señales de voz o audio de banda estrecha transmitidas posteriormente son procesadas según este procedimiento y ponderación. La primera información de envolvente correspondiente a la señal de voz o audio de banda estrecha se restaura hasta que conmuten de nuevo señales de voz o audio de diferente ancho de banda. Por ejemplo, el primer peso 1 en esta forma de realización puede representarse como a1; el primer peso 2 puede representarse como b1; la información de envolvente de trama anterior puede representarse como pre_fenv; la información de envolvente predicha puede representarse como fenv; y la primera información de envolvente puede representarse como cur_fenv. En este caso, la etapa 503 puede representarse mediante la siguiente fórmula: cur_fenv = pre_fenv x a1 fenv x b1.

Etapa 504: Si el coeficiente de correlación está dentro del segundo intervalo de umbrales, determinar si el segundo peso fijado 1 es mayor que el primer peso 1. El segundo peso 1 se refiere al valor de ponderación de la información de envolvente antes de la conmutación, que corresponde a la señal de banda de alta frecuencia de la trama anterior de señal de voz o audio antes de la conmutación.

Específicamente, si c1 < corr < c2, el grado del impacto de la información de envolvente antes de la conmutación y la información de envolvente de trama anterior en la primera información de envolvente de la trama actual puede obtenerse comparando el segundo peso 1 con el primer peso 1.

Etapa 505: Si el segundo peso 1 no es mayor que el primer peso 1, ponderar según el primer peso fijado 1 y el primer peso fijado 2 para calcular la primera información de envolvente.

Específicamente, cuando se determina que el segundo peso 1 es menor que el primer peso 1 en la etapa 504, esto indica que la trama actual de señal de voz o audio está algo lejos de la trama anterior de señal de voz o audio antes de la conmutación, y que la primera información de envolvente se ve afectada ligeramente por la información de envolvente de trama previa antes de la conmutación. Por lo tanto, la primera información de envolvente de la trama actual puede calcularse según el primer peso fijado 1 y el primer peso 2. En este caso, la etapa 505 puede representarse mediante la siguiente fórmula: cur_fenv = pre_fenv x a1 fenv x b1.

Etapa 506: Si el segundo peso 1 es mayor que el primer peso 1, ponderar según el segundo peso 1 y el segundo peso fijado 2 para calcular la primera información de envolvente. El segundo peso 2 se refiere al valor de ponderación de la información de envolvente predicha. Por ejemplo, el segundo peso 1 puede representarse como a2, y el segundo peso 2 puede representarse como b2.

Específicamente, cuando se determina que el segundo peso 1 es mayor que el primer peso 1 en la etapa 504, esto indica que la trama actual de señal de voz o audio está más cerca de la primera señal de voz o audio de banda de frecuencia de la trama anterior antes de la conmutación, y que la primera información de envolvente se ve afectada considerablemente por la información de envolvente antes de la conmutación que corresponde a la trama anterior de señal de voz o audio antes de la conmutación. Por lo tanto, la primera información de envolvente de la trama actual puede calcularse según el segundo peso fijado 1 y el segundo peso 2. En este caso, el producto de la información de envolvente predicha y el segundo peso 2 se suma al producto de la información de envolvente antes de la conmutación y el segundo peso 1, y la suma ponderada es la primera información de envolvente de la trama actual. La información de envolvente antes de la conmutación puede representarse como con_fenv. En este caso, la etapa 506 puede representarse mediante la siguiente fórmula: cur_fenv = con_fenv x a2 fenv x b2.

Etapa 507: Reducir el segundo peso 1 como en la etapa de segundo peso, e incrementar el segundo peso 2 como en la etapa de segundo peso.

Específicamente, cuando se transmiten las señales de voz o audio, el impacto de una señal de voz o audio antes de la conmutación en la trama subsiguiente de señal de voz o audio se reduce gradualmente. Para calcular la primera información de envolvente de manera más precisa, es necesario realizar un ajuste adaptativo en el segundo peso 1 y el segundo peso 2. El impacto de la señal de voz o audio antes de la conmutación en la trama subsiguiente de señal de voz o audio se reduce gradualmente, mientras que el impacto de la trama anterior de señal de voz o audio cerca de la trama actual de señal de voz o audio aumenta gradualmente. Por lo tanto, el valor del segundo peso 1 disminuye gradualmente, mientras que el valor del segundo peso 2 aumenta gradualmente. De esta manera, el impacto de la información de envolvente antes de la conmutación en la primera información de envolvente se debilita, mientras que el impacto de la información de envolvente predicha en la primera información de envolvente mejora. En la etapa 507, el segundo peso 1 y el segundo peso 2 pueden modificarse según las siguientes fórmulas: Segundo peso nuevo 1 = Segundo peso viejo 1 - Etapa de primer peso; Segundo peso nuevo 2 = Segundo peso viejo 2 Etapa de primer peso, donde la primera etapa de peso es un valor fijado.

La suma del primer peso 1 y del primer peso 2 es igual a 1; la suma del segundo peso 1 y del segundo peso 2 es igual a 1; el valor inicial del segundo peso 1 es mayor que el valor inicial del primer peso 1.

Etapa 303: Generar una primera señal de banda de alta frecuencia procesada según la primera información de envolvente y la información de estructura precisa predicha.

Específicamente, después de que la primera información de envolvente de la trama actual se obtenga en la etapa 302, la primera señal de banda de alta frecuencia procesada puede generarse según la primera información de envolvente y la información de estructura precisa predicha, de modo que la segunda señal de banda de alta frecuencia puede conmutar suavemente a la primera señal de banda de alta frecuencia procesada.

Usando el procedimiento de conmutación de señales de voz o audio de esta forma de realización, en el proceso de conmutación de una señal de voz o audio desde una señal de voz o audio de banda de frecuencia ancha a una señal de voz o audio de banda de frecuencia estrecha, la primera señal de banda de alta frecuencia procesada de la trama actual se obtiene según la información de estructura precisa predicha y la primera información de envolvente. De esta manera, la segunda señal de banda de alta frecuencia de la señal de voz o audio de banda de frecuencia ancha antes de la conmutación puede conmutar suavemente a la primera señal de banda de alta frecuencia procesada correspondiente a la señal de voz o audio de banda de frecuencia estrecha, lo que mejora la calidad de las señales de audio recibidas por el usuario.

Según la solución técnica anterior, la etapa 202 mostrada en la FIG. 6 incluye las siguientes etapas:

Etapa 601: Determinar si la primera señal de banda de alta frecuencia procesada tiene que atenuarse según la trama actual de señal de voz o audio y la trama anterior de señal de voz o audio antes de la conmutación. Específicamente, la primera señal de banda de alta frecuencia de la señal de voz o audio de banda estrecha es nula. En el proceso de conmutar la señal de voz o audio de banda de frecuencia ancha a la señal de voz o audio de banda de frecuencia estrecha, para impedir el efecto negativo de la primera señal de banda de alta frecuencia procesada correspondiente a la señal de voz o audio de banda de frecuencia estrecha restaurada, la energía de la primera señal de banda de alta frecuencia procesada se atenúa por tramas hasta que el coeficiente de atenuación alcance un umbral dado después de que el número de tramas de la señal de banda de frecuencia ancha extendida a partir de la señal de voz o audio de banda de frecuencia estrecha alcance un número dado de tramas. El intervalo entre la trama actual de señal de voz o audio y la señal de voz o audio de una trama antes de la conmutación puede obtenerse según la trama actual de señal de voz o audio y la señal de voz o audio de la trama antes de la conmutación. Por ejemplo, el número de tramas de la señal de voz o audio de banda de frecuencia estrecha puede registrarse usando un contador, donde el número de tramas puede ser un valor predeterminado mayor o igual a 0. Etapa 602: Si la primera señal de banda de alta frecuencia procesada no tiene que atenuarse, sintetizar la primera señal de banda de alta frecuencia procesada y la primera señal de banda de baja frecuencia en una señal de banda de frecuencia ancha.

Específicamente, si se determina que la primera señal de banda de alta frecuencia procesada no tiene que atenuarse en la etapa 601, la primera señal de banda de alta frecuencia procesada y la primera señal de banda de baja frecuencia se sintetizan directamente en una señal de banda de frecuencia ancha.

Etapa 603: Si la primera señal de banda de alta frecuencia procesada tiene que atenuarse, determinar si el factor de atenuación correspondiente a la primera señal de banda de alta frecuencia procesada es mayor que el umbral. Específicamente, el valor inicial del factor de atenuación es 1, y el umbral es mayor o igual que 0 y menor que 1. Si se determina que la primera señal de banda de alta frecuencia procesada tiene que atenuarse en la etapa 601, en la etapa 603 se determina si el factor de atenuación correspondiente a la primera señal de banda de alta frecuencia procesada es mayor que un umbral dado.

Etapa 604: Si el factor de atenuación no es mayor que el umbral dado, multiplicar la primera señal de banda de alta frecuencia procesada por el umbral, y sintetizar el producto y la primera señal de banda de baja frecuencia en la señal de banda de frecuencia ancha.

Específicamente, si se determina que el factor de atenuación no es mayor que el umbral dado en la etapa 603, esto indica que la energía de la primera señal de banda de alta frecuencia procesada ya se ha atenuado hasta cierto punto y que la primera señal de banda de alta frecuencia procesada puede no generar efectos negativos. En este caso puede mantenerse esta relación de atenuación. Después, la primera señal de banda de alta frecuencia procesada se multiplica por el umbral, y después el producto y la primera señal de banda de baja frecuencia se sintetizan en una señal de banda de frecuencia ancha.

Etapa 605: Si el factor de atenuación es mayor que el umbral dado, multiplicar la primera señal de banda de alta frecuencia procesada por el factor de atenuación, y sintetizar el producto y la primera señal de banda de baja frecuencia en la señal de banda de frecuencia ancha.

Específicamente, si el factor de atenuación es mayor que el umbral dado en la etapa 603, esto indica que la primera señal de banda de alta frecuencia procesada puede generar una mala escucha en el factor de atenuación y tiene que atenuarse adicionalmente hasta que alcance el umbral dado. Después, la primera señal de banda de alta frecuencia procesada se multiplica por el factor de atenuación, y después el producto y la primera señal de banda de baja frecuencia se sintetizan en una señal de banda de frecuencia ancha.

Etapa 606: Modificar el factor de atenuación para reducir el factor de atenuación.

Específicamente, cuando se transmiten las señales de voz o audio, el impacto de las señales de voz o audio antes de la conmutación en señales de voz o audio de banda estrecha subsiguientes se reduce gradualmente, y el factor de atenuación también se reduce gradualmente.

Opcionalmente, en función de la solución técnica anterior, cuando se produce una conmutación desde una señal de voz o audio de banda de frecuencia estrecha a una señal de voz o audio de banda de frecuencia ancha, una forma de realización para obtener la primera señal de banda de frecuencia procesada a través de la etapa 201 incluye las siguiente etapas, como se muestra en la FIG. 7:

Etapa 701: Ponderar según el cuarto peso fijado 1 y el cuarto peso 2 para calcular una primera señal de banda de alta frecuencia procesada. El cuarto peso 1 se refiere al valor de ponderación de la segunda señal de banda de alta frecuencia, y el cuarto peso 2 se refiere al valor de ponderación de la primera señal de banda de alta frecuencia de la trama actual de señal de voz o audio.

Específicamente, en el proceso de conmutar la señal de voz o audio de banda de frecuencia estrecha a la señal de voz o audio de banda de frecuencia ancha, debido a que la señal de banda de alta frecuencia de la señal de voz o audio de banda de frecuencia ancha no es nula sino que la señal de banda de alta frecuencia correspondiente a la señal de voz o audio de banda de frecuencia estrecha es nula, la energía de la señal de banda de alta frecuencia de la señal de voz o audio de banda de frecuencia ancha tiene que atenuarse para garantizar que la señal de voz o audio de banda de frecuencia estrecha pueda conmutar suavemente a la señal de voz o audio de banda de frecuencia ancha. El producto de la segunda señal de banda de alta frecuencia y del cuarto peso 1 se suma al producto de la primera señal de banda de alta frecuencia y el cuarto peso 2; el valor ponderado es la primera señal de banda de alta frecuencia procesada.

Etapa 702: Reducir el cuarto peso 1 como en la etapa de tercer peso, e incrementar el cuarto peso 2 como en la etapa de tercer peso hasta que el cuarto peso 1 sea igual a 0. La suma del cuarto peso 1 y del cuarto peso 2 es igual a 1.

Específicamente, cuando se transmiten las señales de voz o audio, el impacto de las señales de voz o audio de banda de frecuencia estrecha antes de la conmutación en las señales de voz o audio de banda de frecuencia ancha subsiguientes se reduce gradualmente. Por lo tanto, el cuarto peso 1 se reduce gradualmente, mientras que el cuarto peso 2 aumenta gradualmente hasta que el cuarto peso 1 sea igual a 0 y el cuarto peso 2 sea igual a 1. Es decir, las señales de voz o audio transmitidas son siempre señales de voz o audio de banda de frecuencia ancha. Asimismo, como se muestra en la FIG. 8, otra forma de realización para obtener la primera señal de banda de alta frecuencia procesada a través de la etapa 201 puede incluir además las siguientes etapas:

Etapa 801: Ponderar según el quinto peso fijado 1 y el quinto peso 2 para calcular una primera señal de banda de alta frecuencia procesada. El quinto peso 1 es el valor de ponderación de un parámetro fijo establecido, y el quinto peso 2 es el valor de ponderación de la primera señal de banda de alta frecuencia de la trama actual de señal de voz o audio.

Específicamente, puesto que la primera señal de banda de alta frecuencia de la señal de voz o audio de banda de frecuencia estrecha es nula, un parámetro fijo puede fijarse para sustituir la señal de banda de alta frecuencia de la señal de voz o audio de banda de frecuencia estrecha, donde el parámetro fijo es una constante mayor o igual que 0 y es menor que la energía de la primera señal de banda de alta frecuencia. El producto del parámetro fijo y el quinto peso 1 se suma al producto de la primera señal de banda de alta frecuencia y el quinto peso 2; el valor ponderado es la primera señal de banda de alta frecuencia procesada.

Etapa 802: Reducir el quinto peso 1 como en la etapa de cuarto peso, e incrementar el quinto peso 2 como en la etapa de cuarto peso hasta que el quinto peso 1 sea igual a 0. La suma del quinto peso 1 y del quinto peso 2 es igual a 1.

Específicamente, cuando se transmiten las señales de voz o audio, el impacto de las señales de voz o audio de banda de frecuencia estrecha antes de la conmutación en las señales de voz o audio de banda de frecuencia ancha subsiguientes se reduce gradualmente. Por lo tanto, el quinto peso 1 se reduce gradualmente, mientras que el quinto peso 2 aumenta gradualmente hasta que el quinto peso 1 sea igual a 0 y el quinto peso 2 sea igual a 1. Es decir, las señales de voz o audio transmitidas son siempre señales reales de voz o audio de banda de frecuencia ancha. Usando el procedimiento de conmutación de señales de voz o audio de esta forma de realización, en el proceso de conmutación de una señal de voz o audio desde una señal de voz o audio de banda de frecuencia estrecha a una señal de voz o audio de banda de frecuencia ancha, la señal de banda de alta frecuencia de la señal de voz o audio de banda de frecuencia ancha se atenúa para obtener una señal de banda de alta frecuencia procesada. De esta manera, la señal de banda de alta frecuencia correspondiente a la señal de voz o audio de banda de frecuencia estrecha antes de la conmutación puede conmutar suavemente a la señal de banda de alta frecuencia procesada correspondiente a la señal de voz o audio de banda de frecuencia ancha, lo que ayuda a mejorar la calidad de las señales de audio recibidas por el usuario.

En esta forma de realización, la información de envolvente también puede sustituirse por otros parámetros que pueden representar la señal de banda de alta frecuencia, por ejemplo, un parámetro de codificación predictiva lineal (LPC) o un parámetro de amplitud.

Los expertos en la técnica pueden entender que todas o parte de las etapas del procedimiento según las formas de realización de la presente invención pueden implementarse mediante un programa que da instrucciones a un hardware pertinente. El programa puede almacenarse en un medio de almacenamiento legible por ordenador. Cuando el programa se ejecuta se llevan a cabo las etapas del procedimiento según las formas de realización de la presente invención. El medio de almacenamiento puede ser una memoria de solo lectura (ROM), una memoria de acceso aleatorio (RAM), un disco magnético o un disco compacto de memoria de solo lectura (CD-ROM).

La FIG. 9 muestra una estructura de la primera forma de realización de un aparato de conmutación de señales de voz o audio. Como se muestra en la FIG. 9, el aparato de conmutación de señales de voz o audio incluye un módulo de procesamiento 91 y un primer módulo de sintetización 92.

El módulo de procesamiento 91 está adaptado para ponderar la primera señal de banda de alta frecuencia de la trama actual de señal de voz o audio y la segunda señal de banda de alta frecuencia de las M tramas anteriores de señales de voz o audio para obtener una primera señal de banda de alta frecuencia procesada cuando se produce una conmutación de una señal de voz o audio. M es mayor o igual a 1.

El primer módulo de sintetización 92 está adaptado para sintetizar la primera señal de banda de alta frecuencia procesada y la primera señal de banda de baja frecuencia de la trama actual de señal de voz o audio en una señal de banda de frecuencia ancha.

En el aparato de conmutación de señales de voz o audio de esta forma de realización, el módulo de procesamiento procesa la primera señal de banda de alta frecuencia de la trama actual de señal de voz o audio según la segunda señal de banda de alta frecuencia de las M tramas anteriores de señales de voz o audio, de modo que la segunda señal de banda de alta frecuencia puede conmutar suavemente a la primera señal de banda de alta frecuencia procesada. De esta manera, durante el proceso de conmutación entre señales de voz o audio con diferentes anchos de banda, la señal de banda de alta frecuencia de estas señales de voz o audio puede conmutar suavemente. Finalmente, el primer módulo de sintetización sintetiza la primera señal de banda de alta frecuencia procesada y la primera señal de banda de baja frecuencia en una señal de banda de frecuencia ancha; la señal de banda de frecuencia ancha se transmite a un terminal de usuario, de modo que el usuario disfruta de una señal de voz o audio de alta calidad. Usando el procedimiento de conmutación de señales de voz o audio de esta forma de realización, señales de voz o audio con diferentes anchos de banda pueden conmutar suavemente, lo que reduce el impacto del cambio repentino de energía en la calidad de audio subjetiva de las señales de voz o audio y mejora la calidad de las señales de audio recibidas por el usuario.

La FIG. 10 muestra una estructura de la segunda forma de realización del aparato de conmutación de señales de voz o audio. Como se muestra en la FIG. 10, el aparato de conmutación de señales de voz o audio de esta forma de realización está basado en la primera forma de realización e incluye además un segundo módulo de sintetización 103.

El segundo módulo de sintetización 103 está adaptado para sintetizar la primera señal de banda de alta frecuencia y la primera señal de banda de baja frecuencia en la señal de banda de frecuencia ancha cuando no se produce una conmutación de la señal de voz o audio.

En el aparato de conmutación de señales de voz o audio de esta forma de realización, el segundo módulo de sintetización está configurado para sintetizar la primera señal de banda de baja frecuencia y la primera señal de banda de alta frecuencia de las primeras señales de voz o audio de banda de frecuencia de la trama actual en una señal de banda de frecuencia ancha cuando se produce una conmutación entre señales de voz o audio con diferentes anchos de banda. De esta manera se mejora la calidad de las señales de voz o audio recibidas por el usuario.

Opcionalmente, según la solución técnica anterior, cuando se produce una conmutación desde una señal de voz o audio de banda de frecuencia ancha a una señal de voz o audio de banda de frecuencia estrecha, el módulo de procesamiento 11 incluye los siguientes módulos, como se muestra en la FIG. 10 y en la FIG. 11:

un módulo de predicción 1011, adaptado para predecir información de estructura e información de envolvente precisas correspondientes a la primera señal de banda de alta frecuencia;

un primer módulo de generación 1012, adaptado para ponderar la información de envolvente predicha y la información de envolvente de M tramas anteriores correspondiente a la segunda señal de banda de alta frecuencia de las M tramas anteriores de señales de voz o audio para obtener primera información de envolvente correspondiente a la primera señal de banda de alta frecuencia; y

un segundo módulo de generación 1013, adaptado para generar una primera señal de banda de alta frecuencia procesada según la primera información de envolvente y la información de estructura precisa predicha.

Además, el aparato de conmutación de señales de voz o audio de esta forma de realización puede incluir un módulo de clasificación 1010 adaptado para clasificar la primera señal de banda de baja frecuencia de la trama actual de señal de voz o audio. El módulo de predicción 1011 está adaptado además para predecir la información de estructura y la información de envolvente precisas correspondientes a la primera señal de banda de baja frecuencia de la trama actual de señal de voz o audio.

En el aparato de conmutación de señales de voz o audio de esta forma de realización, el módulo de predicción predice la información de estructura y la información de envolvente precisas correspondientes a la primera señal de banda de alta frecuencia, de modo que la primera señal de banda de alta frecuencia procesada puede generarse de manera precisa por el primer módulo de generación y el segundo módulo de generación. De esta manera, la primera señal de banda de alta frecuencia puede conmutar suavemente a la primera señal de banda de alta frecuencia procesada, lo que mejora la calidad de las señales de voz o audio recibidas por el usuario. Además, el módulo de clasificación clasifica la primera señal de banda de baja frecuencia de la trama actual de señal de voz o audio; el módulo de predicción obtiene la información de estructura precisa predicha y la información de envolvente predicha según el tipo de señal. De esta manera, la información de estructura precisa predicha y la información de envolvente predicha son más precisas, lo que mejora la calidad de las señales de voz o audio recibidas por el usuario.

Opcionalmente, según la solución técnica anterior, el primer módulo de sintetización 102 incluye los siguientes módulos, como se muestra en la FIG. 10 y en la FIG. 12:

un primer módulo de determinación 1021, adaptado para determinar si la primera señal de banda de alta frecuencia procesada tiene que atenuarse según la trama actual de señal de voz o audio y la trama anterior de señal de voz o audio antes de la conmutación;

un tercer módulo de sintetización 1022, adaptado para sintetizar la primera señal de banda de alta frecuencia procesada y la primera señal de banda de baja frecuencia en una señal de banda de frecuencia ancha cuando el primer módulo de determinación 1021 determina que la primera señal de banda de alta frecuencia procesada no tiene que atenuarse;

un segundo módulo de determinación 1023, adaptado para determinar si el factor de atenuación correspondiente a la primera señal de banda de alta frecuencia procesada es mayor que el umbral dado cuando el primer módulo de determinación 1021 determina que la primera señal de banda de alta frecuencia procesada tiene que atenuarse,

un cuarto módulo de sintetización 1024, adaptado para: si el segundo módulo de determinación 1023 determina que el factor de atenuación no es mayor que el umbral dado, multiplicar la primera señal de banda de alta frecuencia procesada por el umbral, y sintetizar el producto y la primera señal de banda de baja frecuencia en una señal de banda de frecuencia ancha;

un quinto módulo de sintetización 1025, adaptado para: si el segundo módulo de determinación 1023 determina que el factor de atenuación es mayor que el umbral dado, multiplicar la primera señal de banda de alta frecuencia procesada por el factor de atenuación, y sintetizar el producto y la primera señal de banda de baja frecuencia en una señal de banda de frecuencia ancha; y

un primer módulo de modificación 1026, adaptado para modificar el factor de atenuación para reducir el factor de atenuación.

El valor inicial del factor de atenuación es 1, y el umbral es mayor o igual que 0 y menor que 1.

La primera señal de banda de alta frecuencia procesada se atenúa usando el aparato de conmutación de señales de voz o audio, de modo que la señal de banda de frecuencia ancha obtenida procesando la trama actual de señal de voz o audio es más precisa, lo que mejora la calidad de las señales de audio recibidas por el usuario.

Opcionalmente, según la solución técnica anterior, cuando se produce una conmutación desde una señal de voz o audio de banda de frecuencia estrecha a una señal de voz o audio de banda de frecuencia ancha, el módulo de procesamiento 101 de esta forma de realización incluye los siguientes módulos, como se muestra en la FIG. 10 y en la FIG. 13a:

un primer módulo de cálculo 1011a, adaptado para realizar una ponderación según un cuarto peso fijado 1 y un cuarto peso 2 para calcular la primera señal de banda de alta frecuencia procesada, donde el cuarto peso 1 se refiere al valor de ponderación de la segunda señal de banda de alta frecuencia, y el cuarto peso 2 se refiere al valor de ponderación de la primera señal de banda de alta frecuencia; y

un segundo módulo de modificación 1012a, adaptado para reducir el cuarto peso 1 como en la etapa de tercer peso, e incrementar el cuarto peso 2 como en la etapa de tercer peso hasta que el cuarto peso 1 sea igual a 0, donde la suma del cuarto peso 1 y del cuarto peso 2 es igual a 1.

Asimismo, cuando se produce una conmutación desde una señal de voz o audio de banda de frecuencia estrecha a una señal de voz o audio de banda de frecuencia ancha, el módulo de procesamiento 101 de esta forma de realización puede incluir además los siguientes módulos, como se muestra en la FIG. 10 y en la FIG. 13b:

un segundo módulo de cálculo 1011b, adaptado para realizar una ponderación según un quinto peso fijado 1 y un quinto peso 2 para calcular la primera señal de banda de alta frecuencia procesada, donde el quinto peso 1 se refiere al valor de ponderación de un parámetro fijo establecido, y el quinto peso 2 se refiere al valor de ponderación de la primera señal de banda de alta frecuencia; y

un tercer módulo de modificación 1012b, adaptado para reducir el quinto peso 1 como en la etapa de cuarto peso, e incrementar el quinto peso 2 como en el etapa de cuarto peso hasta que el quinto peso 1 sea igual a 0, donde la suma del quinto peso 1 y del quinto peso 2 es igual a 1, donde el parámetro fijo es una constante fija mayor o igual a 0 y menor que el valor de energía de la primera señal de banda de alta frecuencia.

Usando el aparato de conmutación de señales de voz o audio de esta forma de realización, en el proceso de conmutación de una señal de voz o audio desde una señal de voz o audio de banda de frecuencia estrecha a una señal de voz o audio de banda de frecuencia ancha, la señal de banda de alta frecuencia de la señal de voz o audio de banda de frecuencia ancha se atenúa para obtener una señal de banda de alta frecuencia procesada. De esta manera, la señal de banda de alta frecuencia correspondiente a la señal de voz o audio de banda de frecuencia estrecha antes de la conmutación puede conmutar suavemente a la señal de banda de alta frecuencia procesada correspondiente a la señal de voz o audio de banda de frecuencia ancha, lo que ayuda a mejorar la calidad de las señales de audio recibidas por el usuario.

Debe observarse que las formas de realización anteriores se proporcionan simplemente para describir la solución técnica de la presente invención, pero no pretenden limitar la presente invención. La invención cubrirá las modificaciones y variaciones siempre que estén dentro del alcance de protección definido por las siguientes reivindicaciones.

Claims

REIVINDICACIONES

1. Un procedimiento de conmutación de señales de voz o audio, caracterizado por que comprende:

predecir (S301) una información de estructura precisa y una información de envolvente correspondientes a una primera señal de banda de alta frecuencia de una trama actual de una señal de voz o audio; ponderar (S302) la información de envolvente predicha e información de envolvente de M tramas anteriores correspondiente a una segunda señal de banda de alta frecuencia de M tramas anteriores de la señal de voz o audio para obtener primera información de envolvente correspondiente a la primera señal de banda de alta frecuencia, donde M es igual a 1;

generar (S303) una primera señal de banda de alta frecuencia procesada según la primera información de envolvente y la información de estructura precisa predicha; y

sintetizar (S202) la primera señal de banda de alta frecuencia procesada y una primera señal de banda de baja frecuencia de la trama actual de señal de voz o audio en una señal de banda de frecuencia ancha.

2. El procedimiento según la reivindicación 1, que comprende además:

cuando no se produce una conmutación de la señal de voz o audio, sintetizar la primera señal de banda de alta frecuencia y la primera señal de banda de baja frecuencia en la señal de banda de frecuencia ancha.

3. El procedimiento según la reivindicación 1 o 2, en el que la etapa de predecir (S301) la información de estructura precisa y la información de envolvente correspondientes a la primera señal de banda de alta frecuencia de la trama actual de señal de voz o audio comprende:

clasificar la primera señal de banda de baja frecuencia de la trama actual de señal de voz o audio; y

predecir la información de estructura precisa y la información de envolvente según el tipo de señal de la primera señal de banda de baja frecuencia.

4. El procedimiento según la reivindicación 1 o 2, en el que la etapa de ponderar la información de envolvente predicha y la información de envolvente de M tramas anteriores correspondiente a la segunda señal de banda de alta frecuencia de las M tramas anteriores de señales de voz o audio para obtener la primera información de envolvente correspondiente a la primera señal de banda de alta frecuencia comprende:

calcular (402) un coeficiente de correlación entre la primera señal de banda de baja frecuencia y una señal de banda de baja frecuencia de N tramas anteriores, N=1, de señales de voz o audio según la primera señal de banda de baja frecuencia y la señal de banda de baja frecuencia de las N tramas anteriores de señales de voz o audio; determinar si el coeficiente de correlación está dentro de un primer intervalo de umbrales dado;

si el coeficiente de correlación no se encuentra dentro del primer intervalo de umbrales, ponderar (403) según un primer peso fijado 1 y un primer peso fijado 2 para calcular la primera información de envolvente, donde el primer peso 1 se refiere a un valor de ponderación de información de envolvente de trama anterior correspondiente a una señal de banda de alta frecuencia de una trama anterior de señal de voz o audio y el primer peso 2 se refiere a un valor de ponderación de la información de envolvente;

si el coeficiente de correlación se encuentra dentro del primer intervalo de umbrales, ponderar (404) según un segundo peso fijado 1 y un segundo peso fijado 2 para calcular información de envolvente transitoria, donde el segundo peso 1 se refiere a un valor de ponderación de información de envolvente correspondiente a una señal de banda de alta frecuencia de L tramas, L=1, de señales de voz o audio antes de la conmutación y el segundo peso 2 se refiere al valor de ponderación de la información de envolvente de M tramas anteriores;

reducir (405) el segundo peso 1 como en la etapa del primer peso, e incrementar el segundo peso 2 como en la etapa del primer peso;

determinar (406) si un tercer peso fijado 1 es mayor que el primer peso 1;

si el tercer peso 1 no es mayor que el primer peso 1, ponderar (407) según el primer peso fijado 1 y el primer peso 2 para calcular la primera información de envolvente;

si el tercer peso 1 es mayor que el primer peso 1, ponderar (408) según el tercer peso fijado 1 y un tercer peso 2 para calcular la primera información de envolvente, donde el tercer peso 1 se refiere a un valor de ponderación de la información de envolvente transitoria y el tercer peso 2 se refiere a un valor de ponderación de la información de envolvente predicha; y

reducir (409) el tercer peso 1 como en la etapa del segundo peso, e incrementar el tercer peso 2 como en la etapa del segundo peso hasta que el tercer peso 1 sea igual a 0; donde:

una suma del primer peso 1 y del primer peso 2 es igual a 1; una suma del segundo peso 1 y del segundo peso 2 es igual a 1; una suma del tercer peso 1 y del tercer peso 2 es igual a 1; un valor inicial del tercer peso 1 es mayor que un valor inicial del primer peso 1; y el primer peso 1 y el primer peso 2 son constantes fijas.

5. El procedimiento según la reivindicación 1 o 2, en el que la etapa de ponderar (S302) la información de envolvente predicha y la información de envolvente de M tramas anteriores correspondiente a la segunda señal de banda de alta frecuencia de las M tramas anteriores de señales de voz o audio para obtener la primera información de envolvente correspondiente a la primera señal de banda de alta frecuencia comprende:

calcular (S501) un coeficiente de correlación entre la primera señal de banda de baja frecuencia de una trama actual y una señal de banda de baja frecuencia de una trama anterior de señal de voz o audio según la primera señal de banda de baja frecuencia de la trama actual y la señal de banda de baja frecuencia de la trama anterior de señal de voz o audio;

determinar (S502) si el coeficiente de correlación está dentro de un segundo intervalo de umbrales dado; y si el coeficiente de correlación no se encuentra dentro del segundo intervalo de umbrales, ponderar (S503) la información de envolvente predicha y una información de envolvente de trama anterior según un primer peso fijado 1 y un primer peso fijado 2 para calcular la primera información de envolvente, donde el primer peso 1 se refiere a un valor de ponderación de la información de envolvente de trama anterior correspondiente a una señal de banda de alta frecuencia de la trama anterior de señal de voz o audio y el primer peso 2 se refiere a un valor de ponderación de la información de envolvente predicha; el primer peso 1 y el primer peso 2 son constantes fijas; y una suma del primer peso 1 y del primer peso 2 es igual a 1.

6. El procedimiento según la reivindicación 5, que comprende además:

si el coeficiente de correlación se encuentra dentro del segundo intervalo de umbrales, determinar si un segundo peso fijado 1 es mayor que el primer peso 1, donde el segundo peso 1 se refiere a un valor de ponderación de información de envolvente correspondiente a la señal de banda de alta frecuencia de la trama anterior de señal de voz o audio antes de la conmutación;

si el segundo peso 1 no es mayor que el primer peso 1, ponderar según el primer peso fijado 1 y el primer peso 2 para calcular la primera información de envolvente;

si el segundo peso 1 es mayor que el primer peso 1, ponderar según el segundo peso 1 y un segundo peso fijado 2 para calcular la primera información de envolvente, donde el segundo peso 2 se refiere a un valor de ponderación de la información de envolvente predicha; y

reducir el segundo peso 1 como en la etapa del segundo peso, e incrementar el segundo peso 2 como en la etapa del segundo peso; donde:

una suma del segundo peso 1 y del segundo peso 2 es igual a 1; un valor inicial del segundo peso 1 es mayor que un valor inicial del primer peso 1.

7. El procedimiento según la reivindicación 1 o 2, en el que la etapa de sintetizar (S202) la primera señal de banda de alta frecuencia procesada y la primera señal de banda de baja frecuencia de la trama actual de señal de voz o audio en la señal de banda de frecuencia ancha comprende:

determinar (S601) si la primera señal de banda de alta frecuencia procesada tiene que atenuarse según la trama actual de señal de voz o audio y la trama anterior de señal de voz o audio antes de la conmutación;

si no se requiere atenuación, sintetizar (S602) la primera señal de banda de alta frecuencia procesada y la primera señal de banda de baja frecuencia en la señal de banda de frecuencia ancha;

si se requiere atenuación, determinar (S603) si un factor de atenuación correspondiente a la primera señal de banda de alta frecuencia es mayor que un umbral dado;

si el factor de atenuación no es mayor que el umbral dado, multiplicar (S604) la primera señal de banda de alta frecuencia procesada por el umbral, y sintetizar el producto de la primera señal de banda de alta frecuencia procesada y el umbral y la primera señal de banda de baja frecuencia en la señal de banda de frecuencia ancha; si el factor de atenuación es mayor que el umbral dado, multiplicar (S605) la primera señal de banda de alta frecuencia procesada por el factor de atenuación, y sintetizar el producto de la primera señal de banda de alta frecuencia procesada y el factor de atenuación y la primera señal de banda de baja frecuencia en la señal de banda de frecuencia ancha; y

modificar (S606) el factor de atenuación para reducir el factor de atenuación; donde:

un valor inicial del factor de atenuación es 1, y el umbral es mayor que o igual a 0 y menor que 1.

8. Un aparato de conmutación de señales de voz o audio, caracterizado por que comprende:

un módulo de predicción (1011), adaptado para: cuando se produce una conmutación desde una señal de voz o audio de banda de frecuencia ancha a una señal de voz o audio de banda de frecuencia estrecha, predecir una información de estructura precisa y una información de envolvente correspondientes a una primera señal de banda de alta frecuencia de una trama actual de una señal de voz o audio;

un primer módulo de generación (1012), adaptado para ponderar la información de envolvente predicha e información de envolvente de M tramas anteriores correspondiente a una segunda señal de banda de alta frecuencia de M tramas anteriores de la señal de voz o audio para obtener primera información de envolvente correspondiente a la primera señal de banda de alta frecuencia, donde M es igual a 1;

un segundo módulo de generación (1013), adaptado para generar una primera señal de banda de alta frecuencia procesada según la primera información de envolvente y la información de estructura precisa predicha; y

un primer módulo de sintetización (92) adaptado para sintetizar la primera señal de banda de alta frecuencia procesada y una primera señal de banda de baja frecuencia de la trama actual de señal de voz o audio en una señal de banda de frecuencia ancha.

9. El aparato según la reivindicación 8, que comprende además:

un segundo módulo de sintetización (103) adaptado para sintetizar la primera señal de banda de alta frecuencia y la primera señal de banda de baja frecuencia en la señal de banda de frecuencia ancha cuando no se produce una conmutación de la señal de voz o audio.

10. El aparato según la reivindicación 8 o 9, que comprende además un módulo de clasificación (1010) adaptado para clasificar la primera señal de banda de baja frecuencia de la trama actual de señal de voz o audio, en el que: el módulo de predicción (1011) está adaptado además para predecir la información de estructura precisa y la información de envolvente según el tipo de señal de la primera señal de banda de baja frecuencia.

11. El aparato según la reivindicación 8, en el que el primer módulo de generación (1012) está configurado específicamente para:

calcular un coeficiente de correlación entre la primera señal de banda de baja frecuencia y una señal de banda de baja frecuencia de N tramas anteriores, N=1, de señales de voz o audio según la primera señal de banda de baja frecuencia y la señal de banda de baja frecuencia de las N tramas anteriores de señales de voz o audio; determinar si el coeficiente de correlación está dentro de un primer intervalo de umbrales dado;

si el coeficiente de correlación no se encuentra dentro del primer intervalo de umbrales, ponderar según un primer peso fijado 1 y un primer peso fijado 2 para calcular la primera información de envolvente, donde el primer peso 1 se refiere a un valor de ponderación de información de envolvente de trama anterior correspondiente a una señal de banda de alta frecuencia de una trama anterior de señal de voz o audio y el primer peso 2 se refiere a un valor de ponderación de la información de envolvente;

si el coeficiente de correlación se encuentra dentro del primer intervalo de umbrales, ponderar según un segundo peso fijado 1 y un segundo peso fijado 2 para calcular información de envolvente transitoria, donde el segundo peso 1 se refiere a un valor de ponderación de información de envolvente correspondiente a una señal de banda de alta frecuencia de L tramas, L=1, de señales de voz o audio antes de la conmutación y el segundo peso 2 se refiere al valor de ponderación de la información de envolvente de M tramas anteriores;

reducir el segundo peso 1 como en la etapa del primer peso, e incrementar el segundo peso 2 como en la etapa del primer peso;

determinar si un tercer peso fijado 1 es mayor que el primer peso 1;

si el tercer peso 1 no es mayor que el primer peso 1, ponderar según el primer peso fijado 1 y el primer peso 2 para calcular la primera información de envolvente;

si el tercer peso 1 es mayor que el primer peso 1, ponderar según el tercer peso fijado 1 y un tercer peso 2 para calcular la primera información de envolvente, donde el tercer peso 1 se refiere a un valor de ponderación de la información de envolvente transitoria y el tercer peso 2 se refiere a un valor de ponderación de la información de envolvente predicha; y

reducir el tercer peso 1 como en la etapa del segundo peso, e incrementar el tercer peso 2 como en la etapa del segundo peso hasta que el tercer peso 1 sea igual a 0; donde:

12. El aparato según la reivindicación 8, en el que el primer módulo de generación (1012) está configurado específicamente para:

calcular un coeficiente de correlación entre la primera señal de banda de baja frecuencia de una trama actual y una señal de banda de baja frecuencia de una trama anterior de señal de voz o audio según la primera señal de banda de baja frecuencia de la trama actual y la señal de banda de baja frecuencia de la trama anterior de señal de voz o audio;

determinar si el coeficiente de correlación está dentro de un segundo intervalo de umbrales dado; y

si el coeficiente de correlación no se encuentra dentro del segundo intervalo de umbrales, ponderar la información de envolvente predicha y una información de envolvente de trama anterior según un primer peso fijado 1 y un primer peso fijado 2 para calcular la primera información de envolvente, donde el primer peso 1 se refiere a un valor de ponderación de la información de envolvente de trama anterior correspondiente a una señal de banda de alta frecuencia de la trama anterior de señal de voz o audio y el primer peso 2 se refiere a un valor de ponderación de la información de envolvente predicha; el primer peso 1 y el primer peso 2 son constantes fijas; y una suma del primer peso 1 y del primer peso 2 es igual a 1.

13. El aparato según la reivindicación 12, en el que el primer módulo de generación (1012) está configurado además para:

14. El aparato según la reivindicación 8 o 9, en el que el primer módulo de sintetización (92) comprende:

un primer módulo de determinación (1021), adaptado para determinar si la primera señal de banda de alta frecuencia procesada tiene que atenuarse según la trama actual de señal de voz o audio y una trama anterior de señal de voz o audio antes de la conmutación;

un tercer módulo de sintetización (1022), adaptado para sintetizar la primera señal de banda de alta frecuencia procesada y la primera señal de banda de baja frecuencia en la señal de banda de frecuencia ancha cuando el primer módulo de determinación determina que la primera señal de banda de alta frecuencia procesada no tiene que atenuarse;

un segundo módulo de determinación (1023), adaptado para determinar si un factor de atenuación correspondiente a la primera señal de banda de alta frecuencia procesada es mayor que un umbral dado cuando el primer módulo de determinación determina que la primera señal de banda de alta frecuencia procesada tiene que atenuarse;

un cuarto módulo de sintetización (1024), adaptado para: si el segundo módulo de determinación determina que el factor de atenuación no es mayor que el umbral dado, multiplicar la primera señal de banda de alta frecuencia procesada por el umbral, y sintetizar el producto y la primera señal de banda de baja frecuencia en la señal de banda de frecuencia ancha;

un quinto módulo de sintetización (1025), adaptado para: si el segundo módulo de determinación determina que el factor de atenuación es mayor que el umbral dado, multiplicar la primera señal de banda de alta frecuencia procesada por el factor de atenuación, y sintetizar el producto y la primera señal de banda de baja frecuencia en la señal de banda de frecuencia ancha; y

un primer módulo de modificación (1026), adaptado para modificar el factor de atenuación para reducir el factor de atenuación; donde: