FR3020732A1 - Correction de perte de trame perfectionnee avec information de voisement - Google Patents

Correction de perte de trame perfectionnee avec information de voisement Download PDF

Info

Publication number
FR3020732A1
FR3020732A1 FR1453912A FR1453912A FR3020732A1 FR 3020732 A1 FR3020732 A1 FR 3020732A1 FR 1453912 A FR1453912 A FR 1453912A FR 1453912 A FR1453912 A FR 1453912A FR 3020732 A1 FR3020732 A1 FR 3020732A1
Authority
FR
France
Prior art keywords
signal
components
frame
decoding
period
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
FR1453912A
Other languages
English (en)
Inventor
Julien Faure
Stephane Ragot
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
Orange SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Orange SA filed Critical Orange SA
Priority to FR1453912A priority Critical patent/FR3020732A1/fr
Priority to KR1020237028912A priority patent/KR102808307B1/ko
Priority to EP15725801.3A priority patent/EP3138095B1/fr
Priority to RU2016146916A priority patent/RU2682851C2/ru
Priority to JP2016565232A priority patent/JP6584431B2/ja
Priority to KR1020227011341A priority patent/KR102808306B1/ko
Priority to ES15725801T priority patent/ES2743197T3/es
Priority to PCT/FR2015/051127 priority patent/WO2015166175A1/fr
Priority to MX2016014237A priority patent/MX368973B/es
Priority to CN201580023682.0A priority patent/CN106463140B/zh
Priority to US15/303,405 priority patent/US10431226B2/en
Priority to BR112016024358-7A priority patent/BR112016024358B1/pt
Priority to KR1020167033307A priority patent/KR20170003596A/ko
Publication of FR3020732A1 publication Critical patent/FR3020732A1/fr
Priority to ZA2016/06984A priority patent/ZA201606984B/en
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/028Noise substitution, i.e. substituting non-tonal spectral components by noisy source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/81Detection of presence or absence of voice signals for discriminating voice from music
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • G10L2025/932Decision in previous or following frames
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

L'invention concerne le traitement d'un signal audionumérique comportant une succession d'échantillons répartis en trames successives. Le traitement est mis en œuvre en particulier au décodage de ce signal pour remplacer au moins une trame de signal perdue au décodage. Il comporte les étapes : a) recherche, dans un segment de signal valide disponible au décodage, d'au moins une période dans le signal, déterminée en fonction dudit signal valide, b) analyse du signal dans ladite période, pour une détermination de composantes spectrales du signal dans ladite période, c) synthèse d'au moins une trame de remplacement de la trame perdue, par construction d'un signal de synthèse à partir : - d'une addition de composantes sélectionnées parmi lesdites composantes spectrales déterminées, et - d'un bruit ajouté à l'addition de composantes. En particulier, la quantité de bruit ajoutée à l'addition de composantes est pondérée en fonction d'une information de voisement du signal valide, obtenue au décodage.

Description

Correction de perte de trame perfectionnée avec information de voisement La présente invention concerne le domaine du codage/décodage en télécommunications, et plus particulièrement celui de la correction de perte de trame au décodage.
On entend par « trame » un segment audio composé d'au moins un échantillon (si bien que l'invention s'applique aussi bien pour la perte d'un ou plusieurs échantillons en codage selon la norme G.711 que pour une perte d'un ou plusieurs paquets d'échantillons en codage selon les normes G.723, G.729, etc.).
Les pertes de trames audio interviennent lorsqu'une communication temps réel utilisant un codeur et un décodeur est perturbée par les conditions d'un réseau de télécommunication (problèmes radiofréquences, congestion du réseau d'accès, etc.). Dans ce cas, le décodeur utilise des mécanismes de correction de perte de trames pour tenter de substituer le signal manquant par un signal reconstruit en utilisant des informations disponibles au décodeur (par exemple le signal audio déjà décodé pour une ou plusieurs trames passées). Cette technique peut maintenir une qualité de service malgré des performances de réseau dégradées. Les techniques de correction de perte de trames sont le plus souvent très dépendantes du type de codage utilisé. Dans le cas d'un codage CELP, il est courant de répéter certains paramètres décodés à la trame précédente (enveloppe spectrale, pitch, gains de dictionnaires), avec des ajustements comme une modification de l'enveloppe spectrale pour converger vers une enveloppe moyenne ou l'utilisation d'un dictionnaire fixe aléatoire. La technique la plus employée pour corriger la perte de trame dans le cas d'un codage par transformée, consiste à répéter la dernière trame reçue si une trame est perdue et à mettre la trame répétée à zéro dès que plus d'une trame est perdue. Cette technique se retrouve dans plusieurs codages normalisés (G.719, G.722.1, G.722.1C). On peut aussi citer le cas du codage normalisé G.711, pour lequel un exemple de correction de perte de trame décrit dans l'appendice I de G.711 consiste à identifier une période fondamentale (dite « pitch ») dans le signal déjà décodé et à la répéter en prenant soin de faire une addition avec recouvrement (dit « overlap-add ») entre le signal déjà décodé et le signal répété. Cette addition avec recouvrement permet de « gommer » les artefacts audio mais nécessite, pour être mis en oeuvre, un délai supplémentaire au décodeur (correspondant à la durée du recouvrement).
Par ailleurs, dans le cas du codage normalisé G.722.1, une transformée modulée avec chevauchement (ou MLT pour « Modulated Lapped Transform »), avec une addition avec recouvrement de 50% et des fenêtres sinusoïdales permettent d'assurer une transition entre la dernière trame perdue et la trame répétée qui soit suffisamment lente pour gommer les artefacts liés à la simple répétition de la trame dans le cas d'une seule trame perdue.
Contrairement à la correction de perte de trame décrite dans la norme G.711 (Appendice I), cette réalisation ne nécessite pas de retard supplémentaire puisqu'elle exploite le retard existant et le repliement temporel de la transformée MLT pour faire une addition avec recouvrement avec le signal reconstitué.
Cette technique est très peu coûteuse mais elle a comme principal défaut une incohérence entre le signal décodé avant la perte de trame et le signal répété. Il en résulte une discontinuité de phase qui peut produire des artefacts audio importants si la durée du recouvrement entre les deux trames est faible, comme tel est le cas lorsque les fenêtres utilisées pour la transformée MLT sont «à faible retard » comme décrit dans le document FR 1350845 en référence aux figures lA et 1B de ce document. Dans ce cas, même une solution qui combinerait une recherche de pitch comme dans le cas du codeur selon la norme G.711 (Appendice I) et une addition avec recouvrement selon la fenêtre de la transformée MLT n'est pas suffisante pour supprimer les artefacts audio.
Le document FR 1350845 propose une méthode hybride qui combine les avantages des deux méthodes en permettant de garder la continuité de phase dans le domaine transformée. La présente invention s'inscrit dans ce cadre. Une description détaillée de la solution objet de ce document FR 1350845 est décrite plus loin en référence à la figure 1.
Cette solution, même si elle est particulièrement prometteuse, reste à parfaire car, lorsque le signal codé ne comporte qu'une période fondamentale (« mono pitch ») comme par exemple un segment voisé d'un signal de parole, la qualité audio après correction de trame perdue peut être dégradée et moins bonne qu'avec une correction de perte de trame par un modèle de parole de type CELP par exemple (pour « Code-Excited Linear Prediction »). L'invention vient améliorer la situation.
Elle propose à cet effet un procédé de traitement d'un signal audionumérique comportant une succession d'échantillons répartis en trames successives, le procédé étant mis en oeuvre pendant un décodage dudit signal pour remplacer au moins une trame de signal perdue au décodage. Le procédé comporte les étapes : a) recherche, dans un segment de signal valide disponible au décodage, d'au moins une période dans le signal, déterminée en fonction dudit signal valide, b) analyse du signal dans ladite période, pour une détermination de composantes spectrales du signal dans ladite période, c) synthèse d'au moins une trame de remplacement de la trame perdue, par construction d'un signal de synthèse à partir : - d'une addition de composantes sélectionnées parmi lesdites composantes spectrales déterminées, et - d'un bruit ajouté à l'addition de composantes.
En particulier, la quantité de bruit ajoutée à l'addition de composantes est pondérée en fonction d'une information de voisement du signal valide, obtenue au décodage. Avantageusement, l'information de voisement utilisée au décodage, transmise à au moins un débit du codeur, permet d'accorder plus d'importance aux composantes sinusoïdales du signal passé si ce signal est voisé, ou d'accorder plus d'importance au bruit sinon, ce qui donne un résultat audible beaucoup plus satisfaisant. Toutefois, en cas de signal non voisé ou dans le cas d'un signal de musique, il n'est pas utile de conserver autant de composantes pour la synthèse du signal remplaçant la trame perdue. Dans ce cas, plus de poids peut être attribué au bruit injecté pour la synthèse du signal. On réduit avantageusement alors la complexité des traitements en particulier dans le cas d'un signal non voisé, sans pour autant dégrader la qualité de la synthèse.
Dans une forme de réalisation où un signal de bruit est ajouté aux composantes, ce signal de bruit est donc pondéré par un gain plus petit en cas de voisement du signal valide. Par exemple, ce signal de bruit peut être obtenu à partir de la trame précédemment reçue par un résidu entre le signal reçu et l'addition des composantes sélectionnées.
Dans une forme de réalisation complémentaire ou alternative, le nombre de composantes sélectionnées pour l'addition est plus grand en cas de voisement du signal valide. Ainsi, si le signal est voisé, on tient compte davantage du spectre du signal passé, comme indiqué précédemment.
Avantageusement, une forme de réalisation complémentaire peut être choisie, dans laquelle on sélectionne davantage de composantes si le signal est voisé tout en minimisant le gain à appliquer au signal de bruit. Ainsi, la quantité d'énergie globale atténuée par l'application d'un gain plus petit que 1 sur le signal de bruit est en partie compensée par la sélection de davantage de composantes. À l'inverse, on ne diminue pas le gain à appliquer au signal de bruit et on sélectionne moins de composantes si le signal n'est pas voisé ou n'est que faiblement voisé. Il est possible en outre d'améliorer encore le compromis qualité/complexité au décodage et, à l'étape a), la période précitée peut être recherchée dans un segment de signal valide de durée plus grande en cas de voisement du signal valide. Dans un exemple de réalisation présenté dans la description détaillée ci-après, on effectue une recherche, par corrélation dans le signal valide, d'une période de répétition correspondant typiquement à au moins une période de pitch si le signal est voisé et dans ce cas, notamment pour les voix d'hommes, la recherche de pitch peut s'effectuer sur plus de 30 millisecondes par exemple.
Dans une forme de réalisation optionnelle, l'information de voisement est fournie dans un flux codé reçu au décodage et correspondant au signal précité comportant une succession d'échantillons répartis en trames successives. On utilise alors, en cas de perte de trame au décodage, l'information de voisement contenue dans une trame de signal valide précédant la trame perdue. Ainsi, l'information de voisement est issue d'un codeur générant un flux codé et déterminant l'information de voisement, et dans une forme de réalisation particulière, l'information de voisement est codée sur un bit unique dans le flux codé. Néanmoins, à titre d'exemple de réalisation, la génération au codeur de cette donnée de voisement peut être conditionnée par le fait que le débit est suffisant ou non sur un réseau de communication entre le codeur et le décodeur. Par exemple, si le débit est inférieur à un seuil, cette donnée de voisement n'est pas transmise par le codeur pour économiser de la bande passante. Dans ce cas, à titre purement d'exemple, la dernière information de voisement acquise au décodeur peut être utilisée pour la synthèse de trame, ou alternativement il peut être décidé d'appliquer le cas d'un non-voisement pour la synthèse de trame.
Dans la réalisation l'information de voisement est codée sur un bit unique dans le flux codé, la valeur prise par le gain appliqué au signal de bruit peut être aussi binaire et, si le signal est voisé, la valeur du gain est fixée à 0,25, et elle est de 1 sinon. Dans une variante, l'information de voisement est issue d'un codeur déterminant une valeur de platitude ou d'harmonicité du spectre (obtenue par exemple par comparaison des amplitudes des composantes spectrales du signal, à un bruit de fond), le codeur délivrant alors cette valeur sous forme binaire dans le flux codé (sur plus d'un bit). Dans une telle variante, la valeur du gain peut être fonction de la valeur de platitude précitée (par exemple selon une variation continue croissante en fonction de cette valeur). De manière générale, ladite valeur de platitude peut être comparée à un seuil pour déterminer : - que le signal est voisé si la valeur de platitude est inférieure au seuil, et - que le signal n'est pas voisé sinon, (ce qui revient à caractériser le voisement de façon binaire). Ainsi, dans la réalisation du bit unique comme dans sa variante, les critères de sélection des composantes et/ou de choix de durée de segment de signal dans lequel on recherche le pitch peuvent être binaires Par exemple, pour la sélection de composantes : - si le signal est voisé, on sélectionne les composantes spectrales dont les amplitudes sont supérieures à celles des premières composantes spectrales voisines, ainsi que les premières composantes spectrales voisines, et - sinon, on ne sélectionne que les composantes spectrales dont les amplitudes sont supérieures à celles des premières composantes spectrales voisines. Pour le choix de durée de segment de recherche de pitch, par exemple : - si le signal est voisé, la période est recherchée dans un segment de signal valide de durée supérieure à 30 millisecondes (par exemple 33 millisecondes), - et, sinon, la période est recherchée dans un segment de signal valide de durée inférieure à 30 millisecondes (par exemple 28 millisecondes). Ainsi, l'invention vise à améliorer l'état de l'art au sens du document FR 1350845 en modifiant différentes étapes du traitement présenté dans ce document (recherche de pitch, sélection des composantes, injection de bruit) mais néanmoins en fonction en particulier des caractéristiques du signal original. Ces caractéristiques du signal original peuvent être codées comme une information particulière dans le flux de données vers le décodeur (ou « bitstream ») en fonction de la classification de la parole et/ou de la musique, et le cas échant de la classe de parole en particulier. Cette information dans le flux au décodage permet d'optimiser le compromis entre complexité et qualité et, conjointement, de : - modifier le gain du bruit à injecter dans la somme des composantes spectrales sélectionnées pour construire le signal de synthèse remplaçant la trame perdue, - modifier le nombre de composantes sélectionnées pour la synthèse, - modifier la durée du segment de recherche du pitch. Une telle réalisation peut être mise en oeuvre dans un codeur pour la détermination de l'information de voisement, et plus particulièrement dans un décodeur, notamment dans le cas de perte de trame. Elle peut s'implémenter sous forme logicielle dans une réalisation d'un codage/décodage pour les services voix enrichis (ou « EVS » pour « Enhanced Voice Services ») spécifié par le groupe 3GPP (SA4).
A ce titre la présente invention vise aussi un programme informatique comportant des instructions pour la mise en oeuvre du procédé ci-avant, lorsque ce programme est exécuté par un processeur. Un exemple d'ordinogramme d'un tel programme est présenté dans la description détaillée ci-après en référence à la figure 4 pour le décodage et en référence à la figure 3 pour le codage. La présente invention vise aussi un dispositif de décodage d'un signal audionumérique comportant une succession d'échantillons répartis en trames successives. Le dispositif comporte des moyens (tel qu'un processeur et une mémoire, ou un composant ASIC ou autre circuit) pour remplacer au moins une trame de signal perdue, par : a) recherche, dans un segment de signal valide disponible au décodage, d'au moins une période dans le signal, déterminée en fonction dudit signal valide, b) analyse du signal dans ladite période, pour une détermination de composantes spectrales du signal dans ladite période, c) synthèse d'au moins une trame de remplacement de la trame perdue, par construction d'un signal de synthèse à partir : - d'une addition de composantes sélectionnées parmi lesdites composantes spectrales déterminées, et - d'un bruit ajouté à l'addition de composantes, la quantité de bruit ajoutée à l'addition de composantes étant pondérée en fonction d'une information de voisement du signal valide, obtenue au décodage. De même, la présente invention vise aussi un dispositif de codage d'un signal audionumérique, comportant des moyens (tels qu'une mémoire et un processeur, ou un composant ASIC ou autre circuit) pour fournir une information de voisement dans un flux codé que délivre le dispositif de codage, en distinguant un signal de parole susceptible d'être voisé d'un signal de musique, et, dans le cas d'un signal de parole, en : - identifiant que le signal est voisé ou générique, pour le considérer globalement voisé, ou - en identifiant que le signal est inactif, transitoire ou non voisé, pour le considérer globalement comme non voisé.
D'autres caractéristiques et avantages de l'invention apparaîtront à l'examen de la description détaillée ci-après, et des dessins annexés sur lesquels : - la figure 1 rappelle les principales étapes du procédé de correction de perte de trame au sens du document FR 1350845 ; - la figure 2 illustre schématiquement les principales étapes d'un procédé au sens de l'invention ; - la figure 3 illustre un exemple d'étapes mises en oeuvre au codage, dans une forme de réalisation au sens de l'invention ; - la figure 4 illustre un exemple d'étapes mises en oeuvre au décodage, dans une forme de réalisation au sens de l'invention ; - la figure 5 illustre un exemple d'étapes mises en oeuvre au décodage, pour la recherche de pitch dans un segment de signal valide Nc ; - la figure 6 illustre schématiquement un exemple de dispositifs codeur et décodeur au sens de l'invention.
On se réfère à la figure 1 sur laquelle on a illustré les étapes principales décrites dans le document FR 1350845. A la première étape Si, on mémorise dans une mémoire tampon du décodeur (ou « buffer ») une succession de N échantillons audio, notée b(n) ci-après. Ces échantillons correspondent à des échantillons déjà décodés et sont donc accessibles pour la correction de perte de trame au décodeur. Si le premier échantillon à synthétiser est l'échantillon N, le buffer audio correspond aux échantillons 0 à N-1 précédents. Dans le cas d'un codage par transformée, le buffer audio correspond aux échantillons à la trame précédente, et ne sont pas modifiables car ce type de codage/décodage ne prévoit pas de retard dans la restitution du signal, de sorte qu'il n'est pas prévu de réaliser un fondu enchaîné de durée suffisante pour couvrir une perte de trame. Ensuite, on procède à une étape de filtrage fréquentiel S2, au cours de laquelle le buffer audio b(n) est séparé en deux bandes, une bande basse BB et une bande haute BH, avec une fréquence de séparation notée Fc (par exemple Fc=4kHz). Ce filtrage est de façon préférentielle un filtrage sans retard. La taille du buffer audio est maintenant réduite à N' = N*Fc/fs suite à la décimation de fs à Fc. Dans des variantes de l'invention, cette étape de filtrage peut être optionnelle, les étapes suivantes étant réalisées en pleine bande.
L'étape suivante S3 consiste à rechercher dans la bande basse un point de bouclage et un segment p(n) correspondant à la période fondamentale (ou « pitch » ci-après) au sein du buffer b(n) ré-échantillonné à la fréquence Fc. Cette réalisation permet de tenir compte de la continuité du pitch dans la ou les trame(s) perdue(s) à reconstruire.
L'étape S4 consiste à décomposer le segment p(n) en une somme de composantes sinusoïdales. Par exemple, on peut calculer la transformée de Fourier discrète (DFT) du signal p(n) sur une durée correspondant à la longueur du signal. On obtient ainsi la fréquence, la phase et l'amplitude de chacune des composantes sinusoïdales (ou « pics ») qui composent le signal.
D'autres transformées que la DFT sont possibles. Par exemple, des transformées de type DCT, MDCT ou MCLT peuvent être mises en oeuvre. L'étape S5 est une étape de sélection de K composantes sinusoïdales de manière à garder uniquement les composantes les plus importantes. Dans un mode de réalisation particulier, la sélection des composantes correspond premièrement à sélectionner les amplitudes A(n) pour lesquelles A(n)>A(n-1) et A(n)>A(n+1) avec a- , ce qui assure que les amplitudes correspondent à des pics spectraux. Pour ce faire, les échantillons du segment p(n) (pitch) sont interpolés de manière à obtenir un segment p'(n) composé de P' échantillons avec P> 2-"eg , où ceil(x) est l'entier supérieur ou égal à x. L'analyse par transformée de Fourier FFT se fait donc de façon plus efficace sur une longueur qui est une puissance de 2, sans modifier la période de pitch effective (du fait de l'interpolation). On calcule la transformée FFT de p'(n) : ; et, à partir de la transformée FFT, on obtient directement les phases et amplitudes k) des composantes sinusoïdales, les fréquences normalisées entre 0 et 1 étant données ici par : Ensuite, parmi les amplitudes de cette première sélection, on sélectionne les composantes par ordre décroissant d'amplitude, de manière à ce que l'amplitude cumulée des pics sélectionnés soit d'au moins x% (par exemple x=70%) de l'amplitude cumulée sur typiquement la moitié du spectre à la trame courante.
Il est aussi possible en plus, de limiter le nombre de composantes (par exemple à 20) de manière à rendre la synthèse moins complexe. L'étape S6 de synthèse sinusoïdale consiste à générer un segment s(n) de longueur au moins égale à la taille de la trame perdue (T). Le signal de synthèse s(n) est calculé comme une somme des composantes sinusoïdales sélectionnées : LF 2 k) v(k)) n 2 où k est l'indice des K pics sélectionnés de l'étape S5.
L'étape S7 consiste à « injecter du bruit » (remplir les zones spectrales correspondant aux raies non sélectionnées) de manière à compenser la perte d'énergie liée à l'omission de certains pics fréquentiels dans la bande basse. Une mode de réalisation particulier consiste à calculer le résidu r(n) entre le segment correspondant au pitch p(n) et le signal synthétisé s(n), avec - f]., tel que : 1] Ce résidu de taille P est transformé, par exemple fenêtré et répété en faisant des recouvrements entre des fenêtres de tailles variables, comme décrit dans le document FR 1353551 : -1] t - Le signal s(n) est ensuite combiné au signal r'(n) : LF- en) = stn) [0: 2T + 7 L'étape S8 appliquée sur la bande haute peut consister simplement à répéter le signal passé. Dans une étape S9, le signal est synthétisé en ré-échantillonnant la bande basse à sa fréquence fc d'origine, après avoir été mixé à l'étape S8 à la bande haute filtrée (simplement répétée à l'étape S11). 30 L'étape S10 est une addition avec recouvrement qui permet d'assurer la continuité entre le signal avant la perte de trame et le signal synthétisé. 25 Il est décrit maintenant les éléments ajoutés au procédé de la figure 1, dans une réalisation au sens de l'invention.
Selon une approche générale présentée sur la figure 2, une information de voisement du signal avant perte de trame, transmise à au moins un débit du codeur, est utilisée au décodage (étape DI-1) pour déterminer quantitativement une proportion de bruit à ajouter au signal de synthèse remplaçant une ou plusieurs trames perdues. Ainsi, le décodeur utilise l'information de voisement, pour diminuer, en fonction du voisement, la quantité générale de bruit mixée au signal de synthèse (en assignant un gain G(res) plus faible au signal de bruit r'(k) issu d'un résidu à l'étape DI-3, et/ou en sélectionnant davantage de composantes d'amplitudes A(k) à utiliser pour la construction du signal de synthèse à l'étape DI-4). Le décodeur peut en outre ajuster ses paramètres, notamment de recherche de pitch, pour optimiser le compromis qualité/complexité du traitement, en fonction de l'information de voisement. Par exemple, pour la recherche de pitch, si le signal est voisé, la fenêtre de recherche de pitch Nc peut être plus grande (à l'étape DI-5), comme on le verra plus loin en référence à la figure 5. Pour la détermination du voisement, une information peut être fournie par le codeur, de deux manières, à au moins un débit du codeur : - sous la forme d'un bit de valeur 1 ou 0 selon un degré de voisement identifié au codeur (reçu du codeur à l'étape DI-1 et lu à l'étape DI-2 en cas de perte de trame pour le traitement ultérieur), ou - sous la forme d'une valeur d'amplitude moyenne des pics qui composent le signal au codage, comparée à un bruit de fond. Cette donnée de « platitude » P1 du spectre peut être reçue sur plusieurs bits au décodeur à l'étape optionnelle DI-10 de la figure 2, puis comparée à un seuil à l'étape DI-11, ce qui revient à déterminer aux étapes DI-1 et DI-2 si le voisement est supérieur ou inférieur à un seuil, et en déduire les traitements adéquats, notamment pour la sélection de pics et pour le choix de durée du segment de recherche de pitch. Cette information (qu'elle soit sous la forme d'un bit unique ou d'une valeur sur plusieurs bits) est reçue du codeur (à au moins un débit du codec), dans l'exemple décrit ici.
En effet, en référence à la figure 3, au codeur, le signal d'entrée présenté sous forme de trames Cl est analysé à l'étape C2. L'étape d'analyse consiste à déterminer si le signal audio de la trame courante présente des caractéristiques qui nécessiteraient un traitement particulier en cas de perte de trames au décodeur, comme tel est par exemple le cas sur des signaux de paroles voisés. Dans un mode de réalisation particulier, on utilise avantageusement une classification (parole/musique ou autre) déjà effectuée au codeur de manière à ne pas augmenter la complexité globale de traitement. En effet, dans le cas de codeurs à commutation de modes de codage entre parole ou musique, une classification au codeur permet déjà d'adapter la technique employée pour le codage en fonction de la nature du signal (parole ou musique). De même, en cas de parole, des codeurs de type prédictifs comme par exemple le codeur selon la norme G.718 utilisent aussi une classification de manière à adapter les paramètres du codeur à la nature du signal (sons voisés / non voisés, transitoires, génériques, inactifs). Dans un premier mode particulier de réalisation, on ne réserve qu'un seul bit de « caractérisation pour la perte de trame ». Il est ajouté au flux codé (ou « bitstream ») à l'étape C3 pour indiquer si le signal est un signal de parole (voisé ou générique). Ce bit est par exemple mis à 1 ou à 0 selon les cas du tableau ci-dessous : - de la décision du classificateur parole/musique, - et en outre de la décision du classificateur du mode de codage de la parole. Décision du classificateur du Parole Musique codeur Valeur du bit de caractérisation pour la perte de trame Décision du classificateur Mode de codages : 0 Voisé 1 Non Voisé 0 Transitoire 0 Générique 1 Inactif 0 On entend ici par « générique » un signal de parole habituel (qui n'est pas un transitoire lié à la prononciation d'une plosive, qui n'est pas inactif, et qui n'est pas nécessairement purement voisé comme la prononciation d'une voyelle sans consonne).
Dans un deuxième mode de réalisation, alternatif, l'information transmise au décodeur dans le flux codé n'est pas binaire mais correspond à une quantification du rapport entre les niveaux de pics et les niveaux des vallées dans le spectre. Ce rapport peut être exprimé par une mesure de « platitude » du spectre, notée P1 : Pl = Dans cette expression, x(k) est le spectre d'amplitude de taille N issu de l'analyse de la trame courante dans le domaine fréquentiel (après FFT).
Dans une alternative, une analyse sinusoïdale décomposant le signal au codeur en composantes sinusoïdales et bruit est disponible et la mesure de platitude est obtenue par ratio entre les composantes sinusoïdales et l'énergie globale sur la trame. Suite à l'étape C3 (comportant l'information de voisement en un seul bit ou la mesure de platitude sur plusieurs bits), le buffer audio du codeur est codé classiquement dans une étape C4 avant transmission ultérieure éventuelle au décodeur. On se réfère maintenant à la figure 4 pour décrire les étapes mises en oeuvre au décodeur, dans un exemple de réalisation de l'invention.
Dans le cas où il n'y a pas de pertes de trame à l'étape Dl (flèche KO en sortie du test Dl de la figure 4), le décodeur lit les informations contenues dans le flux codé, y compris les informations de « caractérisation pour la perte de trame » à l'étape D2 (à au moins un débit du codec). Ces dernières sont stockées en mémoire de manière à être réutilisées au cas où une trame suivante serait manquante. Le décodeur continue alors les étapes classiques de décodage D3, etc. de manière à obtenir la trame de sortie synthétisée FR SYNTH.
Dans le cas où une perte de trame(s) intervient (flèche OK en sortie du test Dl), on applique les étapes D4, D5, D6, D7, D8 et D12, correspondant respectivement aux étapes S2, S3, S4, S5, S6 et Sll de la figure 1. Toutefois, quelques modifications sont faites par rapport aux étapes S3 et S5, respectivement aux étapes D5 (recherche d'un point de bouclage pour la détermination du pitch) et D7 (sélection des composantes sinusoïdales). Par ailleurs, l'injection de bruit à l'étape S7 de la figure 1 est réalisée avec une détermination de gain selon deux étapes D9 et D10 dans la figure 4 du décodeur au sens de l'invention.
En effet, dans le cas où l'information de « caractérisation pour la perte de trame » est connue (lorsque la trame précédente a été reçue), l'invention consiste à modifier le traitement des étapes D5, D7 et D9-D10, comme suit. Dans un premier exemple de réalisation, l'information de « caractérisation pour la perte de trame » est binaire, et de valeur : - égale à 0 en cas de signal non voisé, de type musique, de type transitoire, - égale à 1 sinon (tableau ci-dessus). L'étape D5 consiste à rechercher un point de bouclage et un segment p(n) correspondant au pitch au sein du buffer audio ré-échantillonné à la fréquence Fc. Cette technique, décrite dans le document FR 1350845, est illustrée sur la figure 5, sur laquelle : - le buffer audio au décodeur est de taille d'échantillons N', - on détermine la taille d'un buffer cible BC de Ns échantillons, - la recherche de corrélation s'effectue sur Nc échantillons, - la courbe de corrélation « Correl » présente un maximum en mc, - le point de bouclage est désigné Pt Boucl et se situe à Ns échantillons du maximum de corrélation, - le pitch est déterminé alors sur les p(n) échantillons restants à N'-1.
On calcule en particulier une corrélation normalisée corr(n) entre le segment de buffer cible de taille Ns compris entre N'-Ns et N'-1 (d'une durée par exemple de 6ms) et le segment glissant de taille Ns qui commence entre l'échantillon 0 et Nc (avec Nc>N'-Ns) : Pour des signaux de musique, de par la nature du signal, la valeur Nc n'a pas besoin d'être trop grande (par exemple Nc=28ms). Cette limitation permet d'économiser de la complexité de calcul lors de la recherche de pitch. En revanche, l'information de voisement de la dernière trame valablement reçue précédemment permet de déterminer si le signal que l'on cherche à reconstituer est un signal de parole voisé (mono pitch). Il est donc possible, dans ce cas et grâce à cette information, d'augmenter la taille du segment Nc (par exemple Nc=33 ms) de manière à optimiser la recherche de pitch (et potentiellement de trouver une valeur de corrélation plus élevée). Par ailleurs, à l'étape D7 de la figure 4, on sélection des composantes sinusoïdales de manière à garder uniquement les composantes les plus importantes. Dans un mode de réalisation particulier présenté aussi dans le document FR 1350845, la première sélection de composantes revient à sélectionner les amplitudes A(n) pour lesquelles A(n)>A(n-1) et A(n)>A(n+1) avec n Dans le cas de l'invention, on sait avantageusement si le signal que l'on cherche à reconstituer est un signal de parole (voisé ou générique) donc avec des pics marqués et un faible niveau de bruit. Dans ces conditions, il est préférable de sélectionner non seulement les pics A(n) pour lesquelles A(n)>A(n-1) et A(n)>A(n+1) comme présenté ci-dessus, mais aussi d'élargir la sélection à A(n-1) et A(n+1) de manière à ce que les pics sélectionnés représentent une grande part de l'énergie totale du spectre. Cette modification permet notamment de baisser le niveau de bruit (et notamment le niveau de bruit injecté aux étapes D9 et D10 présentées ci-après) par rapport au niveau de signal synthétisé par synthèse sinusoïdale à l'étape D8, tout en conservant un niveau global d'énergie suffisant pour ne pas provoquer d'artefacts audibles liés à des fluctuations d'énergies.
Ensuite, dans le cas où le signal est exempt de bruit (au moins dans les basses fréquences), comme tel est le cas dans un signal de parole voisé ou générique, il est observé que l'ajout du bruit correspondant au résidu transformé r'(n) au sens du document FR 1350845, dégrade en fait la qualité. Ainsi, on utilise ici avantageusement l'information de voisement pour atténuer le bruit en lui appliquant un gain G à l'étape D10. Le signal s(n) issu de l'étape D8 est mixé au signal de bruit r'(n) issu de l'étape D9 en appliquant toutefois ici un gain G qui dépend de l'information de « caractérisation pour la perte de trame » issue du flux codé de la trame précédente, soit : LF s(n) = 27' - Dans ce mode de réalisation particulier, G peut être une constante égale à 1 ou 0,25 en fonction de la nature voisée ou non voisée du signal de la trame précédente, selon le tableau donné ci-après à titre d'exemple : Valeur du bit de « caractérisation pour la perte de trame » 0 1 Gain G 1 0,25 Dans le mode de réalisation alternatif où l'information de « caractérisation pour la perte de trame » possède plusieurs niveaux discrets caractérisant la platitude P1 du spectre. Le gain G peut être exprimé directement en fonction de la valeur Pl. Il en va de même pour la limite du segment Nc pour la recherche de pitch et/ou pour le nombre de pics An à prendre en compte pour la synthèse du signal.
On peut définir à titre d'exemple un traitement comme suit. On définit déjà le gain G directement en fonction de la valeur PI : En outre, on compare la valeur P1 à une valeur moyenne -3dB, étant entendu que la valeur 0 correspond à un spectre plat, et -5 dB correspond à un spectre à pics prononcés. Si la valeur P1 est inférieure à la valeur moyenne seuil -3dB (correspondant donc à un spectre à pics prononcés, typique d'un signal voisé), alors on peut fixer la durée du segment de recherche de de pitch Nc à 33 ms et sélectionner les pics A(n) tels que A(n)>A(n-1) et A(n)>A(n+1), ainsi que les pics premiers voisins A(n-1) et A(n+1). Sinon (si la valeur P1 est supérieure au seuil, ce qui correspond à des pics moins marqués, plus de bruit de fond comme par exemple un signal de musique), la durée Nc peut être choisie plus courte, par exemple de 25 ms et seuls sont sélectionnés les pics A(n) tels que A(n)>A(n-1) et A(n)>A(n+1). Le décodage peut se poursuivre ensuite par le mixage du bruit dont le gain est ainsi obtenu aux composantes ainsi sélectionnées pour obtenir le signal de synthèse dans les basses fréquences à l'étrape D13, lequel est ajouté au signal de synthèse dans les hautes fréquences obtenu à l'étape D14, pour obtenir à l'étape D15 le signal global synthétisé. En référence à la figure 6, on a illustré une mise en oeuvre possible de l'invention dans laquelle, un décodeur DECOD (comportant par exemple un matériel software et hardware tel qu'une mémoire MEM judicieusement programmée et un processeur PROC coopérant avec cette mémoire, ou en variante un composant tel qu'un ASIC, ou autre, ainsi qu'une interface de communication COM) implanté par exemple dans un dispositif de télécommunication tel qu'un téléphone TEL, utilise, pour la mise en oeuvre du procédé de la figure 4, une information de voisement qu'il reçoit d'un codeur COD. Ce codeur comporte par exemple un matériel software et hardware tel qu'une mémoire MEM' judicieusement programmée pour déterminer l'information de voisement et un processeur PROC' coopérant avec cette mémoire, ou en variante un composant tel qu'un ASIC, ou autre, ainsi qu'une interface de communication COM'. Le codeur COD est implanté dans un dispositif de télécommunication tel qu'un téléphone TEL'. Bien entendu, la présente invention ne se limite pas aux formes de réalisation décrites ci-avant à titre d'exemple ; elle s'étend à d'autres variantes.
Ainsi, par exemple, on comprendra que l'information sur le voisement peut prendre différentes formes susceptibles de variantes. Dans l'exemple décrit ci-avant, il peut s'agir d'une valeur binaire sur un seul bit (voisement ou non), ou encore d'une valeur sur plusieurs bits qui peut être relative à un paramètre tel que la platitude du spectre de signal, ou tout autre paramètre permettant de caractériser (quantitativement ou qualitativement) un voisement. Plus encore, ce paramètre peut être déterminé au décodage, par exemple en fonction du degré de corrélation qui peut être mesuré à l'occasion de l'identification de la période de pitch.
Par ailleurs, on a présenté ci-avant à titre d'exemple une réalisation comportant une séparation en une bande de fréquences hautes et une bande de fréquences basses, du signal issu de trames valides précédentes, avec en particulier une sélection des composantes spectrales dans la bande de fréquences basses. Néanmoins, cette réalisation est optionnelle bien qu'avantageuse dans le sens où elle permet de réduire la complexité du traitement. Le procédé de remplacement de trame assisté par l'information de voisement au sens de l'invention peut néanmoins être réalisé en considérant tout le spectre du signal valide, en variante. Par ailleurs, on a décrit ci-avant un exemple de réalisation dans lequel l'invention était mise en oeuvre dans le cadre d'un codage par transformée avec addition et recouvrement. Néanmoins, ce type de procédé peut s'adapter à tout autre type de codage (CELP notamment). Il est à noter que dans le cadre d'un codage par transformée avec addition et recouvrement (dans lequel typiquement le signal de synthèse est construit sur au moins deux durées de trames du fait du recouvrement), le signal de bruit précité peut être obtenu par le résidu (entre le signal valide et la somme des pics) en pondérant ce résidu temporellement. Il peut par exemple être pondéré par des fenêtres de recouvrement, comme dans le cadre habituel d'un codage/décodage par transformée avec recouvrement. On comprendra alors que l'application du gain en fonction de l'information de voisement vient ajouter en outre une autre pondération, cette fois en fonction du voisement.

Claims (16)

  1. REVENDICATIONS1. Procédé de traitement d'un signal audionumérique comportant une succession d'échantillons répartis en trames successives, le procédé étant mis en oeuvre pendant un décodage dudit signal pour remplacer au moins une trame de signal perdue au décodage, le procédé comportant les étapes : a) recherche, dans un segment de signal valide disponible au décodage (Nc), d'au moins une période dans le signal, déterminée en fonction dudit signal valide, b) analyse du signal dans ladite période, pour une détermination de composantes spectrales du signal dans ladite période, c) synthèse d'au moins une trame de remplacement de la trame perdue, par construction d'un signal de synthèse à partir : - d'une addition de composantes sélectionnées parmi lesdites composantes spectrales déterminées, et - d'un bruit ajouté à l'addition de composantes, dans lequel la quantité de bruit ajoutée à l'addition de composantes est pondérée en fonction d'une information de voisement du signal valide, obtenue au décodage.
  2. 2. Procédé selon la revendication 1, caractérisé en ce qu'un signal de bruit ajouté à l'addition de composantes est pondéré par un gain plus petit en cas de voisement du signal valide.
  3. 3. Procédé selon la revendication 2, caractérisé en ce que le signal de bruit est obtenu par un résidu entre le signal valide et l'addition des composantes sélectionnées.
  4. 4. Procédé selon l'une des revendications précédentes, caractérisé en ce que le nombre de composantes sélectionnées pour l'addition est plus grand en cas de voisement du signal valide.
  5. 5. Procédé selon l'une des revendications précédentes, caractérisé en ce que, à l'étape a), la période est recherchée dans un segment de signal valide (Nc) de durée plus grande en cas de voisement du signal valide.
  6. 6. Procédé selon l'une des revendications précédentes, caractérisé en ce que l'information de voisement est fournie dans un flux codé reçu au décodage et correspondant audit signal comportant une succession d'échantillons répartis en trames successives, et en ce qu'on utilise, en cas de perte de trame au décodage, l'information de voisement contenue dans une trame de signal valide précédant la trame perdue.
  7. 7. Procédé selon la revendication 6, caractérisé en ce que l'information de voisement est issue d'un codeur délivrant le flux codé et déterminant l'information de voisement, et en ce que l'information de voisement est codée sur un bit unique dans le flux codé.
  8. 8. Procédé selon la revendication 7, prise en combinaison avec la revendication 2, caractérisé en ce que, si le signal est voisé, la valeur du gain est de 0,25, et elle est de 1 sinon.
  9. 9. Procédé selon la revendication 6, caractérisé en ce que l'information de voisement est issue d'un codeur déterminant une valeur de platitude de spectre (P1), obtenue par comparaison à un bruit de fond des amplitudes des composantes spectrales du signal, le codeur délivrant ladite valeur sous forme binaire dans le flux codé.
  10. 10. Procédé selon la revendication 7, prise en combinaison avec la revendication 2, caractérisé en ce que la valeur du gain est fonction de ladite valeur de platitude.
  11. 11. Procédé selon l'une des revendications 9 et 10, caractérisé en ce que ladite valeur de platitude est comparée à un seuil pour déterminer : - que le signal est voisé si la valeur de platitude est inférieure au seuil, et - que le signal n'est pas voisé sinon.
  12. 12. Procédé selon l'une des revendications 7 et 11, prises en combinaison avec la revendication 4, caractérisé en ce que : - si le signal est voisé, on sélectionne les composantes spectrales dont les amplitudes sont supérieures à celles des premières composantes spectrales voisines, ainsi que les premières composantes spectrales voisines, et - on ne sélectionne que les composantes spectrales dont les amplitudes sont supérieures à celles des premières composantes spectrales voisines, sinon.
  13. 13. Procédé selon l'une des revendications 7 et 11, prise en combinaison avec la revendication 5, caractérisé en ce que : - si le signal est voisé, la période est recherchée dans un segment de signal valide de durée supérieure à 30 millisecondes, - et, sinon, la période est recherchée dans un segment de signal valide de durée inférieure à 30 millisecondes.
  14. 14. Programme informatique caractérisé en ce qu'il comporte des instructions pour la mise en oeuvre du procédé selon l'une des revendications 1 à 13, lorsque ce programme est exécuté par un processeur.
  15. 15. Dispositif de décodage d'un signal audionumérique comportant une succession d'échantillons répartis en trames successives, le dispositif comportant des moyens (MEM, PROC) pour remplacer au moins une trame de signal perdue, par : a) recherche, dans un segment de signal valide disponible au décodage (Nc), d'au moins une période dans le signal, déterminée en fonction dudit signal valide, b) analyse du signal dans ladite période, pour une détermination de composantes spectrales du signal dans ladite période, c) synthèse d'au moins une trame de remplacement de la trame perdue, par construction d'un signal de synthèse à partir : - d'une addition de composantes sélectionnées parmi lesdites composantes spectrales déterminées, et - d'un bruit ajouté à l'addition de composantes, la quantité de bruit ajoutée à l'addition de composantes étant pondérée en fonction d'une information de voisement du signal valide, obtenue au décodage.
  16. 16. Dispositif de codage d'un signal audionumérique, comportant des moyens (MEM', PROC') pour fournir une information de voisement dans un flux codé que délivre le dispositif de codage, en distinguant un signal de parole susceptible d'être voisé d'un signal de musique, et, dans le cas d'un signal de parole, en : - identifiant que le signal est voisé ou générique, pour le considérer globalement voisé, ou- en identifiant que le signal est inactif, transitoire ou non voisé, pour le considérer globalement comme non voisé.
FR1453912A 2014-04-30 2014-04-30 Correction de perte de trame perfectionnee avec information de voisement Pending FR3020732A1 (fr)

Priority Applications (14)

Application Number Priority Date Filing Date Title
FR1453912A FR3020732A1 (fr) 2014-04-30 2014-04-30 Correction de perte de trame perfectionnee avec information de voisement
PCT/FR2015/051127 WO2015166175A1 (fr) 2014-04-30 2015-04-24 Correction de perte de trame perfectionnée avec information de voisement
MX2016014237A MX368973B (es) 2014-04-30 2015-04-24 Corrección de pérdida de trama mejorada con información de voz.
RU2016146916A RU2682851C2 (ru) 2014-04-30 2015-04-24 Усовершенствованная коррекция потери кадров с помощью речевой информации
JP2016565232A JP6584431B2 (ja) 2014-04-30 2015-04-24 音声情報を用いる改善されたフレーム消失補正
KR1020227011341A KR102808306B1 (ko) 2014-04-30 2015-04-24 음성 정보를 갖는 개선된 프레임 손실 보정
ES15725801T ES2743197T3 (es) 2014-04-30 2015-04-24 Corrección de pérdida de trama perfeccionada con información de sonoridad
KR1020237028912A KR102808307B1 (ko) 2014-04-30 2015-04-24 음성 정보를 갖는 개선된 프레임 손실 보정
EP15725801.3A EP3138095B1 (fr) 2014-04-30 2015-04-24 Correction de perte de trame perfectionnée avec information de voisement
CN201580023682.0A CN106463140B (zh) 2014-04-30 2015-04-24 具有语音信息的改进型帧丢失矫正
US15/303,405 US10431226B2 (en) 2014-04-30 2015-04-24 Frame loss correction with voice information
BR112016024358-7A BR112016024358B1 (pt) 2014-04-30 2015-04-24 Processo de tratamento de um sinal de áudio digital e dispositivo de decodificação de um sinal de áudio digital.
KR1020167033307A KR20170003596A (ko) 2014-04-30 2015-04-24 음성 정보를 갖는 개선된 프레임 손실 보정
ZA2016/06984A ZA201606984B (en) 2014-04-30 2016-10-11 Improved frame loss correction with voice information

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
FR1453912A FR3020732A1 (fr) 2014-04-30 2014-04-30 Correction de perte de trame perfectionnee avec information de voisement

Publications (1)

Publication Number Publication Date
FR3020732A1 true FR3020732A1 (fr) 2015-11-06

Family

ID=50976942

Family Applications (1)

Application Number Title Priority Date Filing Date
FR1453912A Pending FR3020732A1 (fr) 2014-04-30 2014-04-30 Correction de perte de trame perfectionnee avec information de voisement

Country Status (12)

Country Link
US (1) US10431226B2 (fr)
EP (1) EP3138095B1 (fr)
JP (1) JP6584431B2 (fr)
KR (3) KR20170003596A (fr)
CN (1) CN106463140B (fr)
BR (1) BR112016024358B1 (fr)
ES (1) ES2743197T3 (fr)
FR (1) FR3020732A1 (fr)
MX (1) MX368973B (fr)
RU (1) RU2682851C2 (fr)
WO (1) WO2015166175A1 (fr)
ZA (1) ZA201606984B (fr)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR3020732A1 (fr) * 2014-04-30 2015-11-06 Orange Correction de perte de trame perfectionnee avec information de voisement
CN108369804A (zh) * 2015-12-07 2018-08-03 雅马哈株式会社 语音交互设备和语音交互方法
AU2020310952A1 (en) * 2019-07-08 2022-01-20 Voiceage Corporation Method and system for coding metadata in audio streams and for efficient bitrate allocation to audio streams coding
CN111883171B (zh) * 2020-04-08 2023-09-22 珠海市杰理科技股份有限公司 音频信号的处理方法及系统、音频处理芯片、蓝牙设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008072913A1 (fr) * 2006-12-14 2008-06-19 Samsung Electronics Co., Ltd. Procédé et appareil pour déterminer le mode de codage d'un signal audio et procédé et appareil pour coder et/ou décoder un signal audio en utilisant le procédé et l'appareil de détermination de mode de codage
WO2010127617A1 (fr) * 2009-05-05 2010-11-11 Huawei Technologies Co., Ltd. Procédés pour recevoir un signal audio numérique à l'aide d'un processeur et pour corriger des données perdues dans un signal audio numérique

Family Cites Families (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR1350845A (fr) 1962-12-20 1964-01-31 Procédé de classement visible sans index
FR1353551A (fr) 1963-01-14 1964-02-28 Fenêtre destinée en particulier à être montée sur des roulottes, des caravanes ou installations analogues
US5504833A (en) * 1991-08-22 1996-04-02 George; E. Bryan Speech approximation using successive sinusoidal overlap-add models and pitch-scale modifications
US5956674A (en) * 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
US5799271A (en) * 1996-06-24 1998-08-25 Electronics And Telecommunications Research Institute Method for reducing pitch search time for vocoder
JP3364827B2 (ja) * 1996-10-18 2003-01-08 三菱電機株式会社 音声符号化方法、音声復号化方法及び音声符号化復号化方法並びにそれ等の装置
US6233550B1 (en) * 1997-08-29 2001-05-15 The Regents Of The University Of California Method and apparatus for hybrid coding of speech at 4kbps
ATE302991T1 (de) * 1998-01-22 2005-09-15 Deutsche Telekom Ag Verfahren zur signalgesteuerten schaltung zwischen verschiedenen audiokodierungssystemen
US6640209B1 (en) * 1999-02-26 2003-10-28 Qualcomm Incorporated Closed-loop multimode mixed-domain linear prediction (MDLP) speech coder
US6138089A (en) * 1999-03-10 2000-10-24 Infolio, Inc. Apparatus system and method for speech compression and decompression
US6691092B1 (en) * 1999-04-05 2004-02-10 Hughes Electronics Corporation Voicing measure as an estimate of signal periodicity for a frequency domain interpolative speech codec system
US6912496B1 (en) * 1999-10-26 2005-06-28 Silicon Automation Systems Preprocessing modules for quality enhancement of MBE coders and decoders for signals having transmission path characteristics
US7016833B2 (en) * 2000-11-21 2006-03-21 The Regents Of The University Of California Speaker verification system using acoustic data and non-acoustic data
US20030028386A1 (en) * 2001-04-02 2003-02-06 Zinser Richard L. Compressed domain universal transcoder
JP4089347B2 (ja) * 2002-08-21 2008-05-28 沖電気工業株式会社 音声復号装置
US7970606B2 (en) * 2002-11-13 2011-06-28 Digital Voice Systems, Inc. Interoperable vocoder
DE10254612A1 (de) * 2002-11-22 2004-06-17 Humboldt-Universität Zu Berlin Verfahren zur Ermittlung spezifisch relevanter akustischer Merkmale von Schallsignalen für die Analyse unbekannter Schallsignale einer Schallerzeugung
CN1717576A (zh) * 2002-11-27 2006-01-04 皇家飞利浦电子股份有限公司 用于将声音帧分离成为正弦分量和残余噪声的方法
JP3963850B2 (ja) * 2003-03-11 2007-08-22 富士通株式会社 音声区間検出装置
US7318035B2 (en) * 2003-05-08 2008-01-08 Dolby Laboratories Licensing Corporation Audio coding systems and methods using spectral component coupling and spectral component regeneration
US7825321B2 (en) * 2005-01-27 2010-11-02 Synchro Arts Limited Methods and apparatus for use in sound modification comparing time alignment data from sampled audio signals
US7930176B2 (en) * 2005-05-20 2011-04-19 Broadcom Corporation Packet loss concealment for block-independent speech codecs
KR100744352B1 (ko) * 2005-08-01 2007-07-30 삼성전자주식회사 음성 신호의 하모닉 성분을 이용한 유/무성음 분리 정보를추출하는 방법 및 그 장치
US7720677B2 (en) * 2005-11-03 2010-05-18 Coding Technologies Ab Time warped modified transform coding of audio signals
US8255207B2 (en) * 2005-12-28 2012-08-28 Voiceage Corporation Method and device for efficient frame erasure concealment in speech codecs
US8135047B2 (en) * 2006-07-31 2012-03-13 Qualcomm Incorporated Systems and methods for including an identifier with a packet associated with a speech signal
JP5394931B2 (ja) * 2006-11-24 2014-01-22 エルジー エレクトロニクス インコーポレイティド オブジェクトベースオーディオ信号の復号化方法及びその装置
US8060363B2 (en) * 2007-02-13 2011-11-15 Nokia Corporation Audio signal encoding
WO2009000073A1 (fr) * 2007-06-22 2008-12-31 Voiceage Corporation Procédé et dispositif de détection d'activité sonore et de classification de signal sonore
CN100524462C (zh) * 2007-09-15 2009-08-05 华为技术有限公司 对高带信号进行帧错误隐藏的方法及装置
US20090180531A1 (en) * 2008-01-07 2009-07-16 Radlive Ltd. codec with plc capabilities
US8036891B2 (en) * 2008-06-26 2011-10-11 California State University, Fresno Methods of identification using voice sound analysis
BRPI0910511B1 (pt) * 2008-07-11 2021-06-01 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Aparelho e método para decodificar e codificar um sinal de áudio
KR101261677B1 (ko) * 2008-07-14 2013-05-06 광운대학교 산학협력단 음성/음악 통합 신호의 부호화/복호화 장치
FR2966634A1 (fr) * 2010-10-22 2012-04-27 France Telecom Codage/decodage parametrique stereo ameliore pour les canaux en opposition de phase
WO2014036263A1 (fr) * 2012-08-29 2014-03-06 Brown University Outil et méthode d'analyse exacte servant à l'évaluation acoustique quantitative du cri du nourrisson
US8744854B1 (en) * 2012-09-24 2014-06-03 Chengjun Julian Chen System and method for voice transformation
FR3001593A1 (fr) * 2013-01-31 2014-08-01 France Telecom Correction perfectionnee de perte de trame au decodage d'un signal.
US9564141B2 (en) * 2014-02-13 2017-02-07 Qualcomm Incorporated Harmonic bandwidth extension of audio signals
US9697843B2 (en) * 2014-04-30 2017-07-04 Qualcomm Incorporated High band excitation signal generation
FR3020732A1 (fr) * 2014-04-30 2015-11-06 Orange Correction de perte de trame perfectionnee avec information de voisement

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008072913A1 (fr) * 2006-12-14 2008-06-19 Samsung Electronics Co., Ltd. Procédé et appareil pour déterminer le mode de codage d'un signal audio et procédé et appareil pour coder et/ou décoder un signal audio en utilisant le procédé et l'appareil de détermination de mode de codage
WO2010127617A1 (fr) * 2009-05-05 2010-11-11 Huawei Technologies Co., Ltd. Procédés pour recevoir un signal audio numérique à l'aide d'un processeur et pour corriger des données perdues dans un signal audio numérique

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"Pulse code modulation (PCM) of voice frequencies; G.711 Appendix I (09/99)", ITU-T STANDARD, INTERNATIONAL TELECOMMUNICATION UNION, GENEVA ; CH, no. G.711 Appendix I (09/99), 1 September 1999 (1999-09-01), pages 1 - 26, XP017463850 *
PARIKH V N ET AL: "Frame erasure concealment using sinusoidal analysis synthesis and its application to MDCT-based codecs", ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, 2000. ICASSP '00. PROCEEDING S. 2000 IEEE INTERNATIONAL CONFERENCE ON 5-9 JUNE 2000, PISCATAWAY, NJ, USA,IEEE, vol. 2, 5 June 2000 (2000-06-05), pages 905 - 908, XP010504870, ISBN: 978-0-7803-6293-2 *
SANG-UK RYU ET AL: "ADVANCES IN SINUSOIDAL ANALYSIS/SYNTHESIS-BASED ERROR CONCEALMENT IN AUDIO NETWORKING", PREPRINTS OF PAPERS PRESENTED AT THE AES CONVENTION, XX, XX, vol. 116TH, no. 5997, 8 May 2004 (2004-05-08), pages 11PP, XP008075607 *

Also Published As

Publication number Publication date
KR20170003596A (ko) 2017-01-09
EP3138095A1 (fr) 2017-03-08
WO2015166175A1 (fr) 2015-11-05
BR112016024358A2 (pt) 2017-08-15
JP6584431B2 (ja) 2019-10-02
KR102808306B1 (ko) 2025-05-15
JP2017515155A (ja) 2017-06-08
CN106463140B (zh) 2019-07-26
MX2016014237A (es) 2017-06-06
RU2016146916A (ru) 2018-05-31
BR112016024358B1 (pt) 2022-09-27
ZA201606984B (en) 2018-08-30
KR20230129581A (ko) 2023-09-08
RU2016146916A3 (fr) 2018-10-26
RU2682851C2 (ru) 2019-03-21
ES2743197T3 (es) 2020-02-18
MX368973B (es) 2019-10-23
KR20220045260A (ko) 2022-04-12
EP3138095B1 (fr) 2019-06-05
US10431226B2 (en) 2019-10-01
CN106463140A (zh) 2017-02-22
KR102808307B1 (ko) 2025-05-15
US20170040021A1 (en) 2017-02-09

Similar Documents

Publication Publication Date Title
EP1316087B1 (fr) Dissimulation d'erreurs de transmission dans un signal audio
EP2951813B1 (fr) Correction perfectionnée de perte de trame au décodage d'un signal
EP2080195B1 (fr) Synthèse de blocs perdus d'un signal audionumérique
EP2987165B1 (fr) Correction de perte de trame par injection de bruit pondéré
WO2011161362A1 (fr) Controle d'une boucle de retroaction de mise en forme de bruit dans un codeur de signal audionumerique
FR2977439A1 (fr) Fenetres de ponderation en codage/decodage par transformee avec recouvrement, optimisees en retard.
EP2080194B1 (fr) Attenuation du survoisement, notamment pour la generation d'une excitation aupres d'un decodeur, en absence d'information
FR3024582A1 (fr) Gestion de la perte de trame dans un contexte de transition fd/lpd
EP2795618B1 (fr) Procédé de détection d'une bande de fréquence prédéterminée dans un signal de données audio, dispositif de détection et programme d'ordinateur correspondant
EP3175443B1 (fr) Détermination d'un budget de codage d'une trame de transition lpd/fd
EP3138095B1 (fr) Correction de perte de trame perfectionnée avec information de voisement
EP2347411B1 (fr) Attenuation de pre-echos dans un signal audionumerique
EP2203915A1 (fr) Dissimulation d'erreur de transmission dans un signal numerique avec repartition de la complexite

Legal Events

Date Code Title Description
PLFP Fee payment

Year of fee payment: 2

PLSC Publication of the preliminary search report

Effective date: 20151106