FR2760285A1 - Procede et dispositif de generation d'un signal de bruit pour la sortie non vocale d'un signal decode de la parole - Google Patents

Procede et dispositif de generation d'un signal de bruit pour la sortie non vocale d'un signal decode de la parole Download PDF

Info

Publication number
FR2760285A1
FR2760285A1 FR9716350A FR9716350A FR2760285A1 FR 2760285 A1 FR2760285 A1 FR 2760285A1 FR 9716350 A FR9716350 A FR 9716350A FR 9716350 A FR9716350 A FR 9716350A FR 2760285 A1 FR2760285 A1 FR 2760285A1
Authority
FR
France
Prior art keywords
signal
speech
noise
parameters
decoded
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
FR9716350A
Other languages
English (en)
Inventor
Dominic Sai Fan Chan
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Motorola Solutions UK Ltd
Original Assignee
Motorola Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Motorola Ltd filed Critical Motorola Ltd
Publication of FR2760285A1 publication Critical patent/FR2760285A1/fr
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • G10L19/07Line spectrum pair [LSP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0007Codebook element generation
    • G10L2019/0008Algebraic codebooks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0007Codebook element generation
    • G10L2019/001Interpolation of codebook vectors
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

Décodeur de la parole (201) agencé et structuré pour recevoir une pluralité de paramètres de la parole et pour décoder la pluralité de paramètres de la parole en au moins un fragment de parole décodée. Un générateur de bruit (205) est agencé et structuré pour générer un signal de bruit. Des moyens de détermination (203) fournissent une décision selon laquelle la pluralité de paramètres de la parole représentent de la parole de caractéristique non vocale. Un commutateur (209) fonctionnant en conjonction avec le décodeur de la parole, le générateur de bruit et le moyen de détermination, est agencé et structuré pour générer le signal de bruit lorsque la pluralité de paramètres de la parole représente de la parole de caractéristique non vocale.

Description

PROCEDE ET DISPOSITIF DE GENERATION D'UN SIGNAL DE BRUIT
POUR LA SORTIE NON VOCALE D'UN SIGNAL DECODE DE LA PAROLE
Cette invention concerne, de façon globale, le codage de la parole, comprenant, sans y être limitée, le décodage
de paramètres de la parole de réception.
Des ressources de communication comme des canaux de fréquence radio sont, au moins actuellement, limitées en quantité. En dépit de cette limitation, une communication doit se poursuivre pour un accroissement rapide. Une répartition, un appel sélectif et des communications10 cellulaires, pour n'en nommer que quelques uns, sont tous utilisés par un nombre croissant d'utilisateurs. Sans les
avances adéquates de la technologie, de nombreux utilisateurs feront face soit à un service réduit, soit probablement un manque complet de service disponible.
Un progrès récent de la technologie prévu pour augmenter l'efficacité de la sortie de données et par là, pour diminuer les besoins en capacité du système afin de permettre ainsi le support de plus de communications par les ressources limitées disponibles, est le codage de la20 parole. Des codeurs de la parole à Prédiction Linéaire et Excitation par Code (CELP), des codeurs de la parole à Prédiction Linéaire et Excitation par Code Algébrique (ACELP) et des codeurs de la parole à Prédiction Linéaire et Excitation par Somme Vectorielle (VSELP) (cette dernière étant une classe de codeurs à Prédiction Linéaire et Excitation par Code (CELP)) ont été proposés comme présentant de bonnes performances pour des cadences de données relativement faibles. Plutôt que de transmettre l'information de voix d'origine elle-même ou une version30 numérisée de celle-ci, de tels codeurs de la parole utilisent des techniques de prédiction linéaire pour permettre cependant l'émission d'une représentation codée de l'information de voix. A l'aide de la représentation
2 2760285
codée lors de la réception, on peut alors reconstituer le
message de voix. Pour une description globale d'une version de l'approche CELP, voir le Brevet U.S. N 4 933 957 délivré pour Bottau et Ass. qui décrit un procédé et un5 système de codage de la parole à faible cadence binaire.
Les codeurs de la parole du type CELP déduisent un signal d'excitation par sommation d'un vecteur de prédiction à long terme avant un ou plusieurs vecteurs de matrice de codage, chaque vecteur étant multiplié par un10 gain adapté avant la sommation. Un filtre de prédiction linéaire reçoit le vecteur d'excitation résultant et
introduit une conformation spectrale afin de produire une parole résultante synthétisée. Une fois correctement configurée, la parole synthétique fournie par un tel codeur15 de la parole reproduira, de façon réaliste, le message vocal d'origine.
Un procédé de décodage de la parole comprend la saisie de paramètres de la parole et la génération d'un filtre LPC (de Codage à Prédiction Linéaire) 107 ainsi que20 d'une excitation vers le filtre à partir des paramètres de la parole. L'excitation peut être classée comme excitation par la voix ou excitation non vocale. L'excitation vocale 101 se réfère à une signal d'excitation avec une configuration répétitive. Ce signal représente les impulsions périodiques dans l'air qui excitent l'appareil vocal. La période de répétition représente la fréquence des vibrations des cordes vocales. L'excitation non vocale 103 se réfère à un signal d'excitation avec une séquence aléatoire. Ce signal représente les turbulences générées30 dans un étranglement en un certain point de l'appareil vocal par un écoulement d'air à grande vitesse via les cordes vocales qui ne vibrent pas mais restent ouvertes. Le signal d'excitation, une somme 105 du signal d'excitation par la voix et du signal d'excitation non vocale, est35 fourni à un filtre LPC 107 qui représente, de façon
3 2760285
globale, l'enveloppe spectrale estimée de la parole
d'origine. Le filtre LPC 107 génère la parole décodée.
Comme les paramètres de la parole sont des représentations comprimées de la parole, ils risquent de ne pas être décodés, de façon adaptée, par un récepteur en voix ou en d'autre(s) son(s) qui étaient présents dans un microphone du dispositif d'émission. Dans certains cas, des anomalies audibles comme des cliquetis ou d'autres sons non désirés, peuvent être reproduits dans le haut- parleur du10 récepteur car le signal émis peut ne pas avoir une largeur de bande suffisante pour émettre, de façon adaptée, des
données représentant les sons dans le microphone.
Ainsi, il existe un besoin pour un procédé de maniement du codage de la parole tel que des sons non désirés ou d'autres anomalies audibles ne soient pas présents dans la parole décodée sans nécessiter plus de la
largeur de bande.
Sur les dessins: la Figure 1 est un synoptique d'un décodeur de la parole de base; la Figure 2 est un synoptique d'un décodeur de la parole placé dans un récepteur selon l'invention; la Figure 3 est un organigramme illustrant un procédé de génération d'un signal de bruit comme faisant partie d'un signal décodé de la parole selon l'invention; la Figure 4 est un organigramme illustrant un procédé de génération d'un signal de bruit selon l'invention; et la Figure 5 est un organigramme illustrant un procédé de génération d'un signal de bruit à la place de parties
non vocales d'un signal décodé de la parole selon l'invention.
4 2760285
Ce qui suit décrit un dispositif et un procédé de génération d'un signal de bruit afin de remplacer la sortie non vocale pour un signal décodé de la parole. Le procédé comprend des étapes de réception d'un signal constitué5 d'une partie vocale et d'une partie non vocale, de décodage du signal en une partie vocale décodée et une partie non vocale décodée, et de génération d'un signal de bruit à la place de la partie décodée non vocale. Un procédé pour fournir un fragment de signal décodé comprend des étapes de10 réception d'une pluralité de paramètres représentant un fragment d'un signal, lesquels paramètres représentent de
la parole vocale ou non vocale, de détermination si le fragment du signal est de caractéristique non vocale, et lorsque le fragment du signal est de caractéristique non15 vocale, de génération d'un signal de bruit comme le fragment de signal décodé.
Un synoptique d'un décodeur de la parole fournissant de la parole décodée améliorée dans un récepteur 200 est illustré sur la Figure 2. Le mode de mise en oeuvre préféré20 du synoptique de la Figure 2 réside dans un DSP56300 disponible chez Motorola Inc. Le récepteur 200 est un récepteur de fréquence radio dans le mode de mise en oeuvre préféré. Des paramètres de la parole comme des paramètres ACELP (à prédiction linéaire et excitation par code25 algébrique) tels qu'utilisés dans le mode de mise en oeuvre préféré, sont entrés dans un décodeur de la parole 201,
décodeur décodant les paramètres ACELP en parole décodée. Dans le mode de mise en oeuvre préféré du décodeur de la parole, une trame de paramètres ACELP est utilisée pour30 générer des paramètres LPC qui spécifient la fonction de transfert d'un filtre LPC et une excitation vers le filtre.
En particulier, l'index de matrice de codage de Fréquence à Spectre Linéaire (LSF) dans les paramètres de la parole est transformé en paramètres LPC spécifiant la fonction de35 transfert du filtre LPC. La fonction de transfert du filtre
2760285
LPC est interpolée dans le domaine de Fréquence à Spectre Linéaire (LSF) en quatre trames secondaires. Dans le mode de mise en oeuvre préféré, chaque intervalle de 30 ms de la parole est représenté par un ensemble de paramètres ACELP5 et est référencé comme une trame. Chaque trame comprend 240 échantillons de la parole pris à une fréquence d'échantillonnage de 8 kHz. Chaque trame de 30 ms est constituée de quatre trames secondaires d'une durée 7,5 ms chacune comprenant 60 échantillons. Le signal d'excitation10 pour chaque trame secondaire est constitué d'un mot de codage à partir de la matrice de codage adaptatif et d'un mot de codage de la matrice de codage novatrice. Les mots de codage sont conformés en gain par les gains dérivés d'un mot de codage de la matrice de codage de gain puis sont15 combinés pour former le signal d'excitation. L'excitation est fournie sur une base de trame secondaire par trame
secondaire au filtre LPC qui génère la parole décodée.
Les paramètres de la parole sont fournis, de même, à un bloc de décision non vocale 203 qui détermine si la partie particulière du signal en cours de traitement par le décodeur de la parole représente une partie vocale ou non vocale de la parole. De nombreux procédés de détermination du fait qu'un fragment de la parole est de caractéristique non vocale existent dans le domaine de l'art. Par exemple,25 des procédés basés sur une analyse de seuil avec quelques paramètres de base sont décrits dans les articles "Système d'Extraction de Caractéristique Numérique à Synchronisation par Pas pour une Reconnaissance de la Parole par Phonèmes" de W. J. Hess dans Rapports IEEE sur l'Acoustique, la30 Parole et le Traitement de Signal, ASSP-24, N 1 aux pages 14 à 25 (1976) et "Discrimination Automatique du Bruit et de Sons de la Parole Quasi Périodiques à l'aide du Procédé de Plan de Phase" de B. M. Lobanov dans Sov. Phys. Acoust., 16:353-356 (1970). D'autres procédés sont basés sur la reconnaissance de configuration, comme ceux décrits dans
6 2760285
les articles "Approche de Reconnaissance de Configuration vers une Classification Vocal-NonVocal-Silence avec Applications à la Reconnaissance de la Parole" de B. S. Atal et L. R. Rabiner dans Rapports IEEE sur l'Acoustique,5 la Parole et le Traitement du Signal, ASSP-24, N 3 aux pages 201 à 212 (1976) et "Procédure pour l'Utilisation de Techniques de Classification de Configuration pour l'Obtention d'un Moyen de Classification Vocale/Non Vocale" de L. J. Siegel dans Rapports IEEE sur l'Acoustique, la10 Parole et le Traitement du Signal, ASSP-27, N 1 aux pages 83 à 89 (1979). Les susdits articles sont ainsi incorporés en référence. Alors, on peut prendre une décision
vocale/non vocale par analyse de la parole décodée.
Dans le mode de mise en oeuvre préféré, le premier coefficient de réflexion déduit des paramètres ACELP LPC est utilisé pour prendre la décision de caractéristique vocale/non vocale. On peut obtenir des coefficients de réflexion à partir des paramètres LPC à l'aide d'une technique récurrente en retour, comme celle décrite à la20 page 444 du livre "Traitement Numérique de Signaux de la Parole" de L. R. Rabiner et R. W. Schafer (1978). Une formule récurrente est la suivante: k. = a,(') a-(I) + a (i)a, ( a/-1-k pour 1 j <i-1 l- k,' o ki représente les coefficients de réflexion et ai les coefficients LPC. La récurrence commence à partir de i = p, p-l,..., 1. Remarquons que p est l'ordre du polynôme LPC d'origine. Lorsqu'une trame secondaire possède une première valeur de coefficient de réflexion inférieure à un seuil, la trame secondaire est considérée comme de caractéristique30 non vocale. Le seuil est déterminé, de façon empirique, par observation des valeurs du premier coefficient de réflexion
aux limites des segments de caractéristique non vocale.
La sortie du bloc de décision de caractéristique non vocale 203 fournit une entrée de commande à un commutateur 209 qui génère des données soit de caractéristique vocale (lorsque la sortie du pavé de décision non vocale est négative), soit de caractéristique non vocale (lorsque la sortie du pavé de décision non vocale est positive) comme parole décodée améliorée. Une entrée du commutateur 209 est la sortie du décodeur de la parole 201 et l'autre entrée du commutateur constitue une sortie pour un générateur de10 bruit 205. Lorsque le bloc de décision de caractéristique non vocale 203 détermine que les paramètres de la parole
représentent des données de caractéristique non vocale, le commutateur 209 génère la sortie du générateur de bruit 205 à la place de la parole décodée.
De nombreux procédés de génération de bruit existent dans le domaine de l'art. Dans le mode de mise en oeuvre préféré de la présente invention, une source de bruit 2051 génère un signal de bruit de Gauss vers un filtre LPC 2053. Le mode de mise en oeuvre préféré utilise des registres à20 décalage de rétroaction pour produire une séquence pseudoaléatoire. En particulier, on peut utiliser un registre à décalage à rétroaction linéaire (LFSR) de 16 ou 32 bits. Un certain nombre de sorties du registre à décalage à rétroaction linéaire (LFSR) sont alors pondérées pour former le signal de bruit de Gauss qui est fourni au filtre LPC 2053. Dans le mode de mise en oeuvre préféré, on pondère 32 séquences pseudoaléatoires pour former le signal de bruit de Gauss. D'autres procédés comprennent la génération de nombres aléatoires à répartition uniforme,30 comme ceux fournis par la fonction UNIX rand() ou la génération de nombres à virgule flottante et à répartition uniforme comme ceux produits par la fonction UNIX drand48(), et la pondération d'un certain nombre des sorties de ces fonctions pour produire un signal de bruit35 de Gauss. Le filtre LPC 2053 reçoit les paramètres LPC du
8 2760285
décodeur de la parole et conforme, de façon spectrale, le
signal de sortie à partir de la source de bruit 2051 avec une estimation de l'enveloppe spectrale de la parole d'origine comme fournie par les paramètres LPC.
Dans le mode de mise en oeuvre préféré, la sortie du filtre LPC est fournie à un filtre d'adaptation d'amplitude 2055 qui règle l'amplitude de sortie du signal de bruit, comme sortie du filtre LPC, pour accorder la parole décodée d'origine avec la trame secondaire remplacée par le bruit,10 et lisse, de même, les variations de l'amplitude de trame entre des trames secondaires successives de la parole de caractéristique non vocale. En d'autres termes, la signature d'amplitude à partir de la parole décodée est utilisée comme signature d'amplitude pour le signal de15 bruit, la signature d'amplitude pour le signal de bruit étant ainsi réglée pour accorder pratiquement la signature d'amplitude de la parole décodée d'origine que le signal de bruit remplacera dans la sortie de codeur de la parole. Les signatures d'amplitude n'ont pas besoin de correspondre20 exactement, car la forme, la fréquence et/ou l'amplitude de la signature d'énergie peuvent varier d'environ 20 % tout en obtenant encore de la parole décodée améliorée. Un procédé en option d'adaptation de l'énergie est une "pondération linéaire" du signal de bruit selon laquelle les amplitudes de segments consécutifs de caractéristique non vocale sont "pondérées de façon linéaire" à l'aide d'un filtre de pondération mobile de petit ordre. La signature d'amplitude du bruit entre le début et la fin du segment de caractéristique non vocale est une fonction linéaire.30 D'autres fonctions non linéaires peuvent être utilisées, de même, pour constituer la signature d'amplitude du bruit entre les points d'extrémité. Une pondération linéaire et d'autres procédés en option pour la constitution d'une signature d'amplitude du signal de bruit de sortie peuvent35 ne pas produire en soi les effets recherchés du procédé
9 2760285
utilisé dans le mode de mise en oeuvre préféré et peuvent
produire d'autres effets indésirables comme une annulation des consonnes occlusives.
Un organigramme illustrant un procédé de remplacement de parties de caractéristique non vocale du signal de la parole par du bruit est illustré par l'organigramme de la Figure 3. Un fragment d'un signal est une partie d'un signal. Dans le mode de mise en oeuvre préféré, un fragment est référencé comme une trame secondaire ou une trame10 secondaire de la parole. A l'Étape 301, on reçoit un signal qui, dans le mode de mise en oeuvre préféré, est reçu sous la forme de paramètres ACELP. Une trame de paramètres ACELP est constituée d'un index de la matrice de codage de Fréquence à Spectre Linéaire (LSF) spécifiant le filtre LPC15 et pour chaque trame secondaire, d'un index de retard de pas, d'un index de matrice de codage novatrice spécifiant la position des quatre impulsions, d'un drapeau de signe global des impulsions, d'un drapeau de décalage pour indiquer si les impulsions doivent être décalées vers la20 droite d'un échantillon, et d'un index vers la matrice de codage de gain spécifiant les gains du mot de codage d'adaptation et du mot de codage novateur. La partie du signal entrant en cours de traitement est analysée pour déterminer si cette partie est de caractéristique vocale ou25 non vocale à l'Étape 303. Si la partie est de caractéristique non vocale à l'Étape 303, le processus se poursuit par l'Étape 305 o un signal de bruit est généré et fourni à l'Étape 307 et le processus se poursuit par l'Étape 311. Si à l'Étape 303, la partie est de30 caractéristique vocale, le processus se poursuit par l'Étape 309 o la voix décodée est générée comme cela est
effectué, de façon usuelle, dans le domaine de l'art. Si l'on doit traiter à l'Étape 311 plus de parties de signal reçu, le processus passe par l'Étape 303 ou se termine.
2760285
Un procédé de génération d'un signal de bruit, comme pouvant être utilisé dans le générateur de bruit 205 de la Figure 2, est illustré par l'organigramme de la Figure 4. A l'Étape 401, on génère un bruit pseudoaléatoire, comme5 décrit ci-dessus, dans le mode de mise en oeuvre préféré. A l'Étape 403, le bruit généré est appliqué à un filtre LPC qui conforme, de façon spectrale, le bruit avec l'enveloppe estimée de spectre de la parole d'origine, comme décrit ci- dessus. A l'Étape 405, le niveau d'amplitude du signal de10 bruit de caractéristique non vocale est adapté aux niveaux d'amplitude de la parole décodée, comme décrit en référence au filtre d'adaptation d'amplitude 2055 de la Figure 2. De nombreux autres procédés de génération d'un signal de bruit existent, pouvant être utilisés avec succès pour la mise en15 oeuvre de la présente invention. Par exemple, toute séquence de nombres aléatoires avec une période de répétition assez grande, par ex. avec une fréquence inférieure ou égale à 0,1 Hz, sera adaptée. En option, la génération de signaux de bruit peut comprendre le stockage20 et l'extraction d'un certain nombre de signaux numériques de bruit bien qu'un tel procédé soit coûteux en termes de mémoire. Un procédé en option de remplacement de la parole de caractéristique non vocale par un signal de bruit dans un signal décodé de la parole est illustré par l'organigramme de la Figure 5. A l'Étape 501, on reçoit et on décode un signal en parties de caractéristique vocale et de caractéristique non vocale à l'Étape 503. Bien que le mode de mise en oeuvre préféré utilise un codage et un décodage30 ACELP de la parole, une mise en pratique efficace de la présente invention est indépendante du type de codeur/décodeur de la parole, référencé, de même, comme "codec" de la parole. Alors, la présente invention peut être appliquée à un VSELP, CELP et d'autres codecs de la parole. A l'Étape 505, un signal de bruit est généré et Il 2760285 fourni à la place de la partie décodée non vocale du
signal. De plus, les parties vocales décodées sont générées de façon normale.
La parole de caractéristique non vocale est remplacée par du bruit sur une base de trame secondaire par trame secondaire dans le mode de mise en oeuvre préféré. De plus, tout fragment de caractéristique non vocale ou trame secondaire d'un signal de la parole n'a pas besoin d'être remplacé par un signal de bruit. Par exemple, des trames10 secondaires avec des excitations présentant une amplitude à haute fréquence supérieure à un certain seuil peuvent ne
pas être remplacées par un signal de bruit.
La présente invention améliore la qualité de la parole codée et décodée de façon numérique (de la parole ACELP dans le mode de mise en oeuvre préféré) sans modifier la structure du codeur de la parole et sans nécessiter de largeur de bande additionnelle pour la transmission. Le codec amélioré est, par conséquent, compatible rétroactivement avec le codec d'origine. La présente20 invention améliore, de même, la synthèse de la parole de caractéristique non vocale dans le décodeur. Le procédé utilisé est basé sur un modèle de production de la parole selon lequel la parole de caractéristique non vocale est générée par une source de bruit fournie à un filtre25 numérique LPC. Lorsqu'un segment de caractéristique non vocale de la parole est détecté soit à partir de la parole décodée d'origine, soit à partir des paramètres de synthèse, le segment d'origine de la parole décodée est remplacé par un autre signal de la même amplitude. Ce30 signal constitue la sortie du filtre LPC d'origine attaqué par une source de bruit pseudoaléatoire. Par conséquent,
des sons non désirés comme des déclics ou d'autres anomalies audibles ne sont pas reproduits dans le haut- parleur d'un récepteur.

Claims (23)

REVENDICATIONS
1. Procédé pour le décodage des signaux comprenant: - la réception d'un signal (301) constitué d'une partie de caractéristique vocale et d'une partie de caractéristique non vocale; - le décodage du signal en une partie vocale décodée et une partie de caractéristique non vocale décodée (303); et
- la génération d'un signal de bruit à la place de la partie de caractéristique non vocale décodée.
2. Procédé selon la revendication 1, caractérisé en ce qu'il comprend, de plus, une étape de
décodage du fragment du signal, lorsque le fragment du signal est de caractéristique vocale, en fragment de signal décodé.
3. Procédé selon la revendication 1, caractérisé en ce que le signal comprend une pluralité de
paramètres qui sont des paramètres de prédiction linéaire excités par code algébrique.
4. Procédé selon la revendication 1, caractérisé en ce qu'il comprend, de plus, une étape de transformation d'une pluralité de coefficients de
prédiction linéaire (LPCs) en au moins un coefficient de réflexion, les LPCs étant au moins certains paramètres de la pluralité de paramètres.
5. Procédé selon la revendication 4, caractérisé en ce qu'au moins un coefficient de réflexion
est utilisé pour déterminer si le signal est de caractéristique non vocale.
6. Procédé selon la revendication 1, caractérisé en ce qu'une partie décodée du signal est utilisée pour déterminer si le signal est de
caractéristique non vocale.
7. Procédé selon la revendication 1, caractérisé en ce qu'il comprend, de plus, une étape de génération d'un bruit filtré à l'aide d'une pluralité de coefficients de prédiction linéaire.
8. Procédé selon la revendication 1, caractérisé en ce qu'il comprend, de plus, une étape de
génération d'un signal de bruit comprenant un signal de10 bruit pseudoaléatoire.
9. Procédé selon la revendication 8, caractérisé en ce que le signal de bruit pseudoaléatoire
est fourni à un filtre.
10. Procédé selon la revendication 1, caractérisé en ce que la partie de caractéristique non vocale décodée possède une première signature d'amplitude
et le signal de bruit possède une seconde signature d'amplitude qui est sensiblement similaire à la première signature d'amplitude.
11. Procédé de production d'un fragment de signal décodé comprenant: - la réception d'une pluralité de paramètres représentant un fragment d'un signal, paramètres représentant de la parole de caractéristique vocale ou non25 vocale; - la détermination du fait que le fragment du signal est de caractéristique non vocale; et - lorsque le fragment du signal est de caractéristique non vocale, la génération d'un signal de
bruit en tant que fragment de signal décodé.
14 2760285
12. Procédé selon la revendication 11, caractérisé en ce qu'il comprend, de plus, une étape de
décodage du fragment du signal, lorsque le fragment du signal est de caractéristique vocale, en fragment de signal5 décodé.
13. Procédé selon la revendication 11, caractérisé en ce que la pluralité de paramètres sont des
paramètres de prédiction linéaire excités par code algébrique.
14. Procédé selon la revendication 11, caractérisé en ce qu'il comprend, de plus, une étape de
transformation d'une pluralité de LPCs en au moins un coefficient de réflexion, les LPCs étant au moins certains paramètres de la pluralité de paramètres.
15. Procédé selon la revendication 14, caractérisé en ce que l'étape de détermination comprend
l'utilisation au moins du coefficient de réflexion pour déterminer si le signal est de caractéristique non vocale.
16. Procédé selon la revendication 11, caractérisé en ce qu'il comprend, de plus, une étape de décodage du fragment du signal pour déterminer si le signal
est de caractéristique non vocale.
17. Procédé selon la revendication 11, caractérisé en ce qu'il comprend, de plus, une étape de
génération d'un bruit filtré à l'aide d'une pluralité de coefficients de prédiction linéaire.
18. Procédé selon la revendication 11, caractérisé en ce que l'étape de génération d'un signal de
bruit comprend la production d'un signal de bruit30 pseudoaléatoire.
19. Procédé selon la revendication 18, caractérisé en ce que le signal de bruit pseudoaléatoire
est fourni à un filtre.
20. Procédé selon la revendication 11, caractérisé en ce que le fragment du signal possède une première signature d'amplitude et le signal de bruit possède une seconde signature d'amplitude qui est
sensiblement similaire à la première signature d'amplitude.
21. Un décodeur de la parole (201), agencé et structuré pour recevoir une pluralité de paramètres de la parole et pour décoder la pluralité de paramètres de la parole en au moins un fragment de la parole décodée, le décodeur de la parole comprenant entre autre; - un générateur de bruit, agencé et structuré pour fournir un signal de bruit; - un moyen (203) pour la détermination du fait que la pluralité de paramètres de la parole représente de la parole de caratéristique non vocale; et - un commutateur (209), fonctionnant en conjonction avec le décodeur de la parole, le générateur de bruit et le
moyen (203) de détermination, agencé et structuré pour fournir le signal de bruit lorsque la pluralité de paramètres de la parole représente de la parole de caractéristique non vocale.
22. Le décodeur de la parole (201) selon la revendication 21, caractérisé en ce que le générateur de bruit comprend: - une source de bruit (205), agencée et structurée pour générer une séquence pseudoaléatoire; - un filtre (2051), fonctionnant en conjonction la source de bruit (205), agencé et structuré pour traiter la séquence pseudoaléaoire en une séquence de bruit filtré; et - un moyen (2055), fonctionnant en conjonction avec le filtre (2051), pour une adaptation d'amplitude d'un niveau d'énergie de la séquence de bruit filtré avec un niveau d'énergie d'au moins un fragment de la parole décodée,
produisant ainsi le signal de bruit.
23. Le décodeur de la parole (201) selon la revendication 21, caractérise en ce que le dispositif est
placé dans un récepteur de fréquence radio (200).
FR9716350A 1997-03-01 1997-12-23 Procede et dispositif de generation d'un signal de bruit pour la sortie non vocale d'un signal decode de la parole Pending FR2760285A1 (fr)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
GB9704316A GB2322778B (en) 1997-03-01 1997-03-01 Noise output for a decoded speech signal

Publications (1)

Publication Number Publication Date
FR2760285A1 true FR2760285A1 (fr) 1998-09-04

Family

ID=10808572

Family Applications (1)

Application Number Title Priority Date Filing Date
FR9716350A Pending FR2760285A1 (fr) 1997-03-01 1997-12-23 Procede et dispositif de generation d'un signal de bruit pour la sortie non vocale d'un signal decode de la parole

Country Status (3)

Country Link
DE (1) DE19804557A1 (fr)
FR (1) FR2760285A1 (fr)
GB (1) GB2322778B (fr)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2881672T3 (es) * 2012-08-29 2021-11-30 Nippon Telegraph & Telephone Método de descodificación, aparato de descodificación, programa, y soporte de registro para ello

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2102254A (en) * 1981-05-11 1983-01-26 Kokusai Denshin Denwa Co Ltd A speech analysis-synthesis system
EP0125423A1 (fr) * 1983-04-13 1984-11-21 Texas Instruments Incorporated Vocodeur avec détermination de la fréquence fondamentale à partir du résidu de prédiction linéaire filtré
EP0095216B1 (fr) * 1982-05-25 1989-11-08 American Microsystems, Incorporated Circuit de multiplication et d'addition
EP0235180B1 (fr) * 1985-08-28 1991-05-29 AT&T Corp. Synthese de la parole avec excitation d'un filtre a niveaux multiples
JPH0637734A (ja) * 1992-07-16 1994-02-10 Fujitsu Ltd 音声伝送方式
US5537509A (en) * 1990-12-06 1996-07-16 Hughes Electronics Comfort noise generation for digital communication systems
EP0747882A2 (fr) * 1995-06-07 1996-12-11 AT&T IPM Corp. Modification du délai de fréquence fondamentale en cas de perte des paquets de données

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2102254A (en) * 1981-05-11 1983-01-26 Kokusai Denshin Denwa Co Ltd A speech analysis-synthesis system
EP0095216B1 (fr) * 1982-05-25 1989-11-08 American Microsystems, Incorporated Circuit de multiplication et d'addition
EP0125423A1 (fr) * 1983-04-13 1984-11-21 Texas Instruments Incorporated Vocodeur avec détermination de la fréquence fondamentale à partir du résidu de prédiction linéaire filtré
EP0235180B1 (fr) * 1985-08-28 1991-05-29 AT&T Corp. Synthese de la parole avec excitation d'un filtre a niveaux multiples
US5537509A (en) * 1990-12-06 1996-07-16 Hughes Electronics Comfort noise generation for digital communication systems
JPH0637734A (ja) * 1992-07-16 1994-02-10 Fujitsu Ltd 音声伝送方式
EP0747882A2 (fr) * 1995-06-07 1996-12-11 AT&T IPM Corp. Modification du délai de fréquence fondamentale en cas de perte des paquets de données

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
PATENT ABSTRACTS OF JAPAN vol. 018, no. 255 (E - 1548) 16 May 1994 (1994-05-16) *

Also Published As

Publication number Publication date
GB2322778B (en) 2001-10-10
GB2322778A (en) 1998-09-02
DE19804557A1 (de) 1998-09-03
GB9704316D0 (en) 1997-04-23

Similar Documents

Publication Publication Date Title
EP1145228B1 (fr) Codage de la parole periodique
EP1316087B1 (fr) Dissimulation d&#39;erreurs de transmission dans un signal audio
EP1320087B1 (fr) Synthèse d&#39;un signal d&#39;excitation utilisé dans un générateur de bruit de confort
EP1593116B1 (fr) Procédé pour le traitement numérique différencié de la voix et de la musique, le filtrage de bruit, la création d&#39;effets spéciaux et dispositif pour la mise en oeuvre dudit procédé
US8554550B2 (en) Systems, methods, and apparatus for context processing using multi resolution analysis
JP5373217B2 (ja) 可変レートスピーチ符号化
CN1185626C (zh) 修改语音信号的系统和方法
EP0770987B1 (fr) Procédé et dispositif de reproduction de la parole, de décodage de la parole, de synthèse de la parole et terminal radio portable
JP4270866B2 (ja) 非音声のスピーチの高性能の低ビット速度コード化方法および装置
EP2080194B1 (fr) Attenuation du survoisement, notamment pour la generation d&#39;une excitation aupres d&#39;un decodeur, en absence d&#39;information
EP0428445B1 (fr) Procédé et dispositif de codage de filtres prédicteurs de vocodeurs très bas débit
WO2000021077A1 (fr) Procede de quantification des parametres d&#39;un codeur de parole
EP0685833B1 (fr) Procédé de codage de parole à prédiction linéaire
CN117334204A (zh) 信号处理方法、装置、计算机设备、存储介质及程序产品
EP1665234B1 (fr) Procede de transmission d un flux d information par insertion a l&#39;interieur d&#39;un flux de donnees de parole, et codec parametrique pour sa mise en oeuvre
FR2760285A1 (fr) Procede et dispositif de generation d&#39;un signal de bruit pour la sortie non vocale d&#39;un signal decode de la parole
JP2003157100A (ja) 音声通信方法及び装置、並びに音声通信プログラム
US20060149534A1 (en) Speech coding apparatus and method therefor
US8583425B2 (en) Methods, systems, and computer readable media for fricatives and high frequencies detection
EP0454552A2 (fr) ProcédÀ© et dispositif de codage bas débit de la parole
JPH07248795A (ja) 音声処理装置