FR2911227A1 - Codage par transformee, utilisant des fenetres de ponderation et a faible retard - Google Patents
Codage par transformee, utilisant des fenetres de ponderation et a faible retard Download PDFInfo
- Publication number
- FR2911227A1 FR2911227A1 FR0700056A FR0700056A FR2911227A1 FR 2911227 A1 FR2911227 A1 FR 2911227A1 FR 0700056 A FR0700056 A FR 0700056A FR 0700056 A FR0700056 A FR 0700056A FR 2911227 A1 FR2911227 A1 FR 2911227A1
- Authority
- FR
- France
- Prior art keywords
- window
- frame
- samples
- short
- current frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 230000005236 sound signal Effects 0.000 title claims abstract description 11
- 238000004590 computer program Methods 0.000 claims abstract description 7
- 238000001514 detection method Methods 0.000 claims abstract description 7
- 230000007704 transition Effects 0.000 claims description 54
- 230000015572 biosynthetic process Effects 0.000 claims description 37
- 238000003786 synthesis reaction Methods 0.000 claims description 37
- 238000004458 analytical method Methods 0.000 claims description 35
- 230000006870 function Effects 0.000 claims description 26
- 230000008859 change Effects 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 7
- 230000009977 dual effect Effects 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims description 3
- 230000000295 complement effect Effects 0.000 claims description 2
- 230000009466 transformation Effects 0.000 description 11
- 238000012545 processing Methods 0.000 description 10
- 238000013139 quantization Methods 0.000 description 8
- 238000011282 treatment Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 7
- 230000000630 rising effect Effects 0.000 description 7
- 230000002123 temporal effect Effects 0.000 description 7
- 238000012360 testing method Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 4
- 238000007792 addition Methods 0.000 description 3
- 238000012937 correction Methods 0.000 description 3
- 230000001052 transient effect Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000000844 transformation Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 101150108611 dct-1 gene Proteins 0.000 description 1
- 230000004907 flux Effects 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
La présente invention concerne le codage/décodage, par transformée en utilisant des fenêtres de longueurs différentes, d'un signal audionumérique représenté par une succession de trames. Pour le codage au sens de l'invention :- on cherche à détecter (51) un événement particulier, tel qu'une attaque, dans une trame courante (Ti), et- au moins si l'événement particulier est détecté en début de trame courante (53), on applique directement une fenêtre courte (54) pour coder (56) la trame courante (Ti), sans appliquer de fenêtre de transition.Le codage est alors de retard réduit par rapport à l'art antérieur.On applique un traitement ad hoc au décodage pour compenser le passage direct d'une fenêtre longue à une fenêtre courte au codage.
Description
Codage par transformée, utilisant des fenêtres de pondération et à faible
retard La présente invention concerne le codage/décodage de signaux audionumériques.
Dans un schéma de codage par transformée, pour une réduction de débit, on cherche habituellement à réduire la précision accordée au codage des échantillons, en s'assurant que l'auditeur ne puisse toutefois percevoir que le moins possible de dégradations.
À cette fin, la réduction de précision, effectuée par une opération de quantification, est contrôlée à partir d'un modèle ;psychoacoustique. Ce modèle, basé sur une connaissance des propriétés de l'oreille humaine, permet de doser le bruit de quantification dans les fréquences auditives les moins perceptibles.
Afin d'utiliser les informations issues du modèle psychoacoustique, essentiellement 15 données dans le domaine fréquentiel, il est classique de réaliser une transformation temps/fréquence, la quantification s'effectuant dans ce domaine fréquentiel.
La figure 1 illustre schématiquement la structure d'un codeur par transformée, avec : un banc BA de filtres d'analyse FA1, ..., FAn, attaquant le signal d'entrée X, 20 un module de quantification Q, suivi d'un module de codage COD, et un banc BS de filtres de synthèse FS1, ..., FSn délivrant le signal codé X'.
Pour réduire encore le débit avant transmission, les échantillons fréquentiels quantifiés sont codés, souvent à l'aide d'un codage dit entropique (codage sans perte). La 25 quantification est réalisée de façon classique par un quantificateur scalaire, uniforme ou non, ou encore par un quantificateur vectoriel.
Le bruit introduit dans l'étape de quantification est mis en forme par le banc de filtres de synthèse (appelé également transformation inverse ). La transformation inverse, liée à la transformée d'analyse, doit donc être choisie afin de bien concentrer le bruit de quantification, fréquentiellement ou temporellement, afin d'éviter qu'il ne devienne audible.
La transformation d'analyse doit concentrer au mieux l'énergie du signal afin de permettre un codage aisé des échantillons dans le domaine transformé. En particulier, le gain de codage de la transformée, qui dépend du signal d'entrée, doit être maximisé dans la mesure du possible. On utilise à cet effet une relation du type : SNR=GI•(+K•R où K est un terme constant qui peut avantageusement valoir 6,02. Ainsi, le rapport signal à bruit obtenu (SNR) est proportionnel au nombre de bits par échantillon sélectionné (R) augmenté de la composante Gu qui représente le gain de codage de la transformée. Plus le gain de codage est important et plus la qualité de reconstruction est bonne.
On comprend donc l'importance que revêt la transformation en codage. Elle assure un codage aisé des échantillons, grâce à son aptitude à concentrer à la fois l'énergie du signal (par la partie analyse) et le bruit de quantification (par la partie synthèse).
Les signaux audio étant notoirement non stationnaires, il convient d'adapter la transformation temps fréquence au cours du temps, en fonction de la nature du signal audio.
On décrit ci-après quelques applications à des techniques de codage usuelles. Dans le cas de transformées modulées, les techniques de codage audio normalisées intègrent des bancs de filtres modulés en cosinus qui permettent de mettre en oeuvre ces techniques de codage à l'aide d'algorithmes rapides, basés sur des transformées en cosinus ou des transformées de Fourier rapides. 30 Parmi les transformées de ce type, la transformée la plus communément utilisée (en codage MP3, MPEG-2 et MPEG-4 AAC en particulier) est la transformée MDCT ( Modified Discrete Cosine Transform ) dont l'expression est présentée ci-dessous : 2M--I XI,' = xn+tMpk(n)0k<M n=0
avec les notations suivantes : • M représente la taille de la transformée. • xn+,M sont les échantillons du son numérisé à une période 4 (inverse de la
fréquence d'échantillonnage) à l'instant n+tM , • t est l'indice de trame. • Xk sont les échantillons dans le domaine transformé pour la trame t,
• pk (n) =,I M (n) cos[ù( (2n+1-i-M)(2k+1)1 est une fonction de base de la transformée dont h( n) est appelé filtre prototype de taille 2M .
Pour restituer les échantillons temporels initiaux, la transformation inverse suivante est appliquée afin de reconstituer les échantillons 0 n M -1: M -1 1 xn+(M [xi.+'pk (n)+Xi, pk (n+M)1 En référence à la figure la, la reconstruction s'effectue comme suit : • transformée DCT inverse (notée ci-après DCT-I) des échantillons xk donnant 20 2M échantillons, • transformée DCT inverse des échantillons Xk' donnant 2M échantillons, les M premiers échantillons ayant un support temporel identique aux M derniers échantillons de la trame précédente, k==0 • pondération par la fenêtre de synthèse h(M+n) pour la deuxième moitié de la trame T; (M derniers échantillons), et par la fenêtre de synthèse h(n) pour la première moitié de la trame suivante T;+1 (M premiers échantillons), et • additions des composantes fenêtrées sur le support commun. Afin d'assurer la reconstruction exacte (dite parfaite ) du signal (selon la condition xn+,tir = xn+tM ), il convient de choisir une fenêtre prototype h(n) satisfaisant quelques contraintes. Typiquement, les relations suivantes sont satisfaisantes afin de permettre une 10 reconstruction parfaite : h(2Mû1ûn)=h(n) h2 (n)+h2 (n+M) =1 les fenêtres étant à symétrie paire par rapport à un échantillon central. Il est relativement simple de satisfaire ces deux contraintes simples et, à cet effet, un 15 filtre prototype classique est constitué d'une fenêtre sinusoïdale qui s'écrit comme suit : h(n)=sin[ _ (n+0.5)] Bien entendu, d'autres formes de filtre prototype existent, telles que les fenêtres définies dans la norme MPEG-4 sous le nom de Kaiser Bessel Dérivées (ou KBD), 20 ou encore les fenêtres à faible recouvrement (pour Low Overlap ).
Un exemple de traitement par une transformée MDCT, avec fenêtres longues, est donné sur la figure la. Sur cette figure : les flèches en traits pointillés illustrent une soustraction, 25 - les flèches en traits pleins illustrent une addition, (1) - les flèches en traits pointillés mixtes illustrent un traitement DCT au codage et DCT"' au décodage DEC, ce terme DCT correspondant au terme en cosinus de la fonction de base présentée ci-avant, les échantillons du signal à coder sont dans un flux noté xin, et on suit l'évolution des traitements de codage/décodage de certains échantillons entourés et référencés a et b sur la figure lb et e et f sur la figure 1c, les échantillons xin sont regroupés par trames, une trame courante est notée T;, les trames précédente et suivante étant notées respectivement Ti_1 et T;+i, - la référence DEC est propre au traitement réalisé par le décodeur (utilisant des fenêtres de synthèse FS avec addition-recouvrement), les fenêtres d'analyse sont notées FA et les fenêtres de synthèse sont notées FS, - n est la distance entre le milieu de fenêtre et l'échantillon a.
La référence calc T'; est propre au calcul de la trame codée T'; utilisant la fenêtre d'analyse FA et les échantillons respectifs des trames T;_1 et T. Il s'agit simplement ici d'un exemple de convention illustré sur la figure la. Il pourrait aussi être décidé, par exemple, d'indexer les trames T, et T;+A pour le calcul d'une trame codée T';. En poursuivant l'exemple de la figure la, la référence calc T';+1 est propre au calcul de la trame codée T'1+1 en utilisant les échantillons respectifs des trames Ti et T;+1.
Les termes vl et v2 obtenus avant transformation DCT et transformation inverse DCT-' sont obtenus avec des équations du type : vl = a*h(M+n) + b*h(2*M-1-n), et v2 = b*h(M-1-n) - a*h(n) Ainsi, après traitement global DCT/DCT'' et fenêtre de synthèse, les termes de reconstruction a' et b' s'écrivent: a'= vl* h(M+n) - v2 * h(n) = a*h(M+n) * h(M+n) + b*h(2*M-1-n)* h(M+n) - b*h(M-1-n)* h(n) + a*h(n)* h(n), et b'= vl* h(2*M-1-n) + v2 * h(M-1-n) a*h(M+n)* h(2M-n-l) + b*h(2*M-•1-n-1)* h(2M-n-1) + b*h(M-1-n)* h(M-1-n) a*h(n)* h(M-1-n) et l'on vérifie bien alors que la reconstruction est parfaite (a'=a et b'=b). (en utilisant les relations (1) et en en déduisant h(M-1-n)=h(n+M)) Le principe décrit ci-avant d'une transformée MDCT s'étend naturellement à des transformées nommées ELT ( Extended Lapped Transform ), dans lesquelles l'ordre des fonctions de base est plus grand que deux fois la taille de la transformée, avec en particulier :
Xk = E xn+,M pk (n) , où 0 k < M et L = 2KM , K étant un entier positif supérieur à 2. n=0 Pour la reconstruction, au lieu d'associer deux trames consécutives comme pour une transformée MDCT, la synthèse des échantillons met en oeuvre K trames successives fenêtrées.
On indique en outre que la contrainte de symétrie des fenêtres (principe décrit en détail ci-après) peut être relâchée pour une transformée de type ELT. La contrainte d'identité entre les fenêtres d'analyse et de synthèse peut également être relâchée et on parle alors de filtres bi-orthogonaux.
Compte tenu de la nécessité d'adapter la transformée au signal à coder, les techniques antérieures autorisent ce qui est appelé une commutation de fenêtre , c'est-à-dire un changement au cours du temps de la taille de la transformée utilisée. La nécessité de changer de longueur de fenêtre peut se justifier notamment dans le cas suivant. Lorsque le signal à coder, par exemple un signal de parole, comporte un signal transitoire (non stationnaire) caractérisant une attaque forte (par exemple la prononciation d'un son ta ou pa caractérisant une plosive dans le signal de parole), il convient d'augmenter la résolution temporelle du codage et de là, de diminuer la taille des fenêtres de codage, ce qui nécessite donc de passer d'une fenêtre longue à une fenêtre courte. Très exactement, dans l'art antérieur connu, on passe dans ce cas d'une fenêtre longue (figure 2a qui sera décrite plus loin) à une fenêtre de transition (figure 2c décrite plus loin), puis à une série de fenêtres courtes (figure 2b décrite plus loin). Il faut donc anticiper une attaque sur au moins une trame suivante, comme on le verra en détail plus loin, avant de pouvoir décider la longueur de la fenêtre de codage d'une trame courante, et, par conséquent, coder la trame courante.
On décrit ci-après un exemple de changement de longueur de fenêtre au sens de l'art antérieur.
Un exemple typique est le changement de taille d'une transformée MDCT de taille m vers une taille m/8, comme prévu dans la norme MPEG-AAC.
Afin de conserver la propriété de reconstruction parfaite, l'équation (1) ci-avant doit être remplacée par les formulations suivantes au moment de la transition entre deux 15 tailles : J h2(n)+h2(Mùn)=1 pour OSn<M th2(M+n)+h2(2Mùn)=1 sinon Une relation est donnée en outre pour les filtres prototypes consécutifs de tailles différentes : 20 hI(M+M/2ùMs/2+n)=h2(Ms.ùn) 0<ùn<M4 Il existe donc une symétrie autour de la taille M / 2 au moment de la transition.
On a illustré différents types de fenêtre sur les figures 2a à 2e, avec respectivement : - une fenêtre sinusoïdale (fonction symétrique sinus) de taille 2M=512 25 échantillons pour la figure 2a, une fenêtre sinusoïdale (fonction symétrique sinus) de taille 2Ms=64 échantillons pour la figure 2b, une fenêtre de transition permettant de passer d'une taille 512 à 64 pour la figure 2c, une fenêtre de transition permettant de passer d'une taille de 64 à 512 pour la figure 2d, et un exemple de construction effectuée à l'aide des fenêtres de base présentées plus haut, pour la figure 2e. Chaque succession est de longueur prédéterminée définissant ce qui est appelé la longueur de fenêtre . Ainsi, des échantillons à coder sont combinés, au moins deux à deux, et pondérés, dans la combinaison, par des valeurs respectives de pondération de la fenêtre, comme on l'a vu en référence à la figure la. 10 Plus particulièrement, les fenêtres sinusoïdales (figures 2a et 2b) sont symétriques, c'est-à-dire que les valeurs de pondération sont sensiblement égales de part et d'autre d'une valeur centrale, au milieu de la succession de valeurs formant la fenêtre. Une réalisation avantageuse consiste à choisir des fonctions sinus pour définir les 15 variations de valeurs de pondération de ces fenêtres. Les autres choix de fenêtre restant possible (par exemple ceux utilisés dans les codeurs MPEG AAC).
On relèvera au contraire que les fenêtres de transition (figures 2c et 2d) sont asymétriques et comportent une région plate (référence PLA), ce qui signifie que 20 les valeurs de pondération dans ces régions sont maximales et par exemple sont égales à 1 . Comme on le verra en référence aux figures lb et 1 c, en utilisant une fenêtre de transition d'une fenêtre longue à une fenêtre courte (figure 2c), deux échantillons (dans l'exemple représenté sur la figure lb), dont l'échantillon a, sont simplement pondérés par un facteur 1 , tandis que l'échantillon b est pondéré par le facteur 0 25 dans le calcul de la trame codée T';, de sorte que les deux échantillons dont l'échantillon a sont simplement transrnis tels quels (la DCT mise à part) dans la trame codée T';.
On décrit ci-après l'utilisation d'une transformée à taille variable dans un système de 30 codage. On décrit aussi les opérations au niveau d'un décodeur qui doit reconstituer les échantillons audio.5 Dans les systèmes normalisés, le codeur sélectionne le plus souvent la transformée à utiliser au cours du temps. Ainsi, dans la norme AAC, le codeur transmet deux bits permettant de sélectionner l'une des quatre configurations de taille de fenêtre présentées ci-dessus.
Le traitement par transformée MDCT utilisant les fenêtres de transition (longue - courte) est illustré sur les figures lb et 1c. Ces figures représentent les calculs menés, de la même manière que pour la figure la.
Sur les figures lb et 1c, on a représenté seulement quelques fenêtres courtes, d'analyse, référencées FA (avec Ms=M/2 dans l'exemple illustré). Néanmoins, en réalité, comme illustré sur la figure 2e, on prévoit une succession de plusieurs fenêtres courtes (avec typiquement Ms=M/8). On comprendra donc que chaque fenêtre FA des figures lb et l c englobe en réalité une succession de fenêtres courtes.
La fenêtre de transition FTA (figure 1 b), pour le calcul de la trame codée T'; (référence cale T';) comporte : - une demi-fenêtre longue sur M: échantillons, dans son front montant, et, dans son front descendant : o une première région plate PLA (avec des valeurs de pondération égales à 1) sur (M/2-Ms/2) échantillons, o une demi-fenêtre courte descendante sur Ms échantillons, et o une seconde région plate (avec des valeurs de pondération égales à 0) sur (M/2-Ms/2) échantillons.
Pour le calcul de la trame codée suivante T';+1 (référence calc T';+i), les (M/2-Ms/2) premiers échantillons sont ignorés et donc non traités par les fenêtres courtes, les Ms échantillons suivants sont pondérés par le front montant de la fenêtre courte d'analyse 30 FA telle qu'illustrée sur les figures lb et 1c, et les Ms échantillons suivants sont pondérés par son front descendant. 25 Dans ce qui suit, les notations suivantes sont utilisées : - M est la taille de trame longue, - Ms est la taille de trame courte.
Sur la figure lb, l'échantillon b est synthétisé en utilisant uniquement les fenêtres courtes pour respecter l'analogie avec le calcul pour les fenêtres longues. Ensuite, du fait de la forme particulière de la demi-fenêtre de transition longue-courte, l'échantillon a est reconstruit directement à partir des fenêtres de transition d'analyse et de synthèse.
La fenêtre de transition est référencée FTA sur les figures lb et 1c.
Sur la figure 1c, les échantillons correspondant à la zone de transition entre la fenêtre longue-courte et la fenêtre courte sont calculés. Par analogie avec le calcul pour les fenêtres longues de la figure la, on suit ici le traitement des échantillons notés e et f (entourés).
Deux exemples de situation de transition de fenêtres sont décrits ci-après.
Dans un premier exemple, on a détecté une attaque nécessitant l'utilisation de fenêtres courtes dans le signal audio à un instant t=720 (figure 2e). Le codeur doit signifier au décodeur l'utilisation de fenêtres de transition long-court venant s'interposer entre les fenêtres longues utilisées préalablement et les fenêtres courtes, ultérieures.
Ainsi, le codeur indique au décodeur, successivement, les séquences : • fenêtre longue • fenêtre de transition long-court • fenêtre courte • fenêtre de transition court-long • fenêtre longue.30
Le décodeur applique alors une relation du type :
M-1 1 xn+rM ù [x' p'k (n)+XF p`k (n+M)] k =0 où pk et pk représentent les fonctions de synthèse des transformées aux temps t et t+l, qui peuvent être distinctes l'une de l'autre. La reconstruction se fait comme précédemment, à la différence près que si les fonctions de base pk et pi', sont de tailles différentes, alors on effectue, en référence à la figure lb : • une transformée DCT inverse de taille M des échantillons Xk donnant 2M 10 échantillons, • une transformée DCT inverse de taille Ms des échantillons Xk' donnant 2Ms échantillons, les Ms premiers échantillons ayant un support temporel commun de longueur Ms dans une zone de recouvrement comportant la partie montante de la fenêtre courte, avec les échantillons issus de la transformée DCT inverse 15 de taille M de la partie descendante de la fenêtre de transition FTA, • une multiplication par la fenêtre de synthèse duale de la fenêtre de transition FTA et référencée FTS sur la figure lb, pour la première moitié, et une multiplication par la fenêtre de synthèse courte FS pour la seconde moitié, et • les additions de ces composantes fenêtrées sur la zone de recouvrement, le 20 support temporel correspondant à une partie de fin de la trame initiale T. Le décodeur est donc esclave du codeur et applique fidèlement les types de fenêtre décidés par le codeur.
25 Dans ce premier exemple, le codeur détecte une transition lors de l'arrivée des échantillons d'une première trame (par exemple la trame 1 de la figure 2e, comportant les échantillons entre les instants t=512 et t=767). Le codeur peut alors décider que la5 fenêtre courante doit être une fenêtre de transition long-court, encodée, transmise et signalée au décodeur. Ensuite, huit fenêtres courtes sont successivement appliquées entre les échantillons t=624 et t=911. Ainsi, au moment de la transition (t=720), l'encodeur utilise les fenêtres courtes, ce qui permet une meilleure représentation temporelle du signal.
Dans un deuxième exemple, une transition est détectée à l'échantillon t=540. Lorsque le codeur reçoit les échantillons d'une première trame (la trame 0 de la figure 2e par exemple), il ne détecte pas de transition et sélectionne donc une fenêtre longue. Lors de l'arrivée des échantillons d'une seconde trame (trame 1 dans l'exemple de la figure 2e), suivante, le codeur détecte une attaque (à l'instant t=540). Dans ce cas alors, la détection est effectuée trop tardivement et l'utilisation d'une fenêtre de transition ne permet pas de bénéficier de l'utilisation des supports temporels courts (fenêtres courtes) au moment de l'attaque. Le codeur doit alors anticiper l'utilisation de fenêtres courtes et, par conséquent, insérer un délai de codage additionnel correspondant à au moins M/2 échantillons.
On comprendra alors qu'un inconvénient de l'art antérieur connu réside dans le fait qu'il est nécessaire d'introduire un retard supplémentaire à l'encodeur pour permettre de détecter une attaque dans le signal temporel d'une trame suivante et d'anticiper alors le passage aux fenêtres courtes. Cette attaque peut correspondre à un signal transitoire de forte intensité, tel qu'une plosive, par exemple, dans un signal de parole, ou encore à l'apparition d'un signal percussif dans une séquence musicale.
Dans certaines applications de télécommunications, le retard supplémentaire, nécessaire pour la détection de signaux transitoires et l'utilisation des fenêtres de transition, n'est pas acceptable. Ainsi par exemple, dans le codeur MPEG-4 AAC Low Delay (à faible retard), les fenêtres courtes ne sont pas utilisées, seules les fenêtres longues étant permises.
La présente invention vient améliorer la situation.
Elle propose une transition entre fenêtres ne nécessitant pas l'introduction d'un retard supplémentaire.
Elle vise à cet effet un procédé de codage/décodage, par transformée, d'un signal audionumérique représenté par une succession de trames, dans lequel : on prévoit au moins deux fenêtres de pondération, de longueurs respectives distinctes, et on utilise une fenêtre courte pour coder une trame dans laquelle un événement particulier a été détecté. Cet événement particulier peut être par exemple un phénomène non stationnaire, tel qu'une attaque forte présente dans le signal audionumérique que contient la trame courante.
Plus particulièrement, pour le codage d'une trame courante, on cherche à détecter l'événement particulier dans cette trame courante, et : au moins si l'événement particulier est détecté en début de la trame courante, on applique une fenêtre courte pour coder la trame courante, - tandis que si l'événement particulier n'est pas détecté dans la trame courante, on applique une fenêtre longue pour coder la trame courante. On réitère ces étapes pour une trame suivante, de sorte qu'il est possible, au sens de l'invention, de coder une trame donnée en utilisant une fenêtre longue et de coder une trame qui suit immédiatement cette trame donnée en utilisant directement ensuite une fenêtre courte, sans utiliser de fenêtre de transition comme dans l'art antérieur.
En s'offrant la possibilité de passer directement d'une fenêtre longue à une fenêtre courte, la détection de l'événement particulier peut être menée directement sur la trame en cours de codage et non plus sur la trame suivante, comme dans l'art antérieur. Dès lors, un codage réalisé par le procédé au sens de l'invention est effectué sans retard supplémentaire par rapport à une transformée MDCT de taille fixe, contrairement aux codages de l'art antérieur.
D'autres caractéristiques et avantages de l'invention apparaîtront à l'examen de la description détaillée ci-après, et des dessins annexés sur lesquels, outre les figures 1, 1 a, lb, 1c, 2a, 2b, 2c, 2d, 2e, relatives à l'art antérieur et décrites ci-avant : la figure 3a illustre schématiquement un traitement de codage/décodage au sens de l'invention en suivant l'évolution d'échantillons a et b, comme sur la figure lb décrite précédemment, - la figure 3b illustre schématiquement un traitement de codage/décodage au sens de l'invention en suivant l'évolution d'échantillons e et f, comme sur la figure le décrite précédemment, et les figures 4a et 4b illustrent des exemples de variation des fonctions de pondération utilisées pour la compensation au décodage, menée dans la mise en 15 oeuvre de l'invention, la figure 5a illustre un exemple de traitement qui peut être appliqué dans un codeur au sens de l'invention, la figure 5b illustre un exemple de traitement qui peut être appliqué dans un décodeur au sens de l'invention, et 20 la figure 6 illustre les structures respectives d'un codeur et d'un décodeur et la communication de l'information du type de fenêtre utilisée au codage.
La présente invention permet d'éviter d'appliquer des fenêtres de transition au moins pour le passage d'une fenêtre longue à une fenêtre courte. 25 Ainsi, en reprenant le deuxième exemple décrit précédemment en référence à la figure 2e, si un phénomène non stationnaire ou attaque est détecté à l'instant t=540, la présente invention propose d'utiliser une fenêtre longue pour la trame 0 (fenêtre s'étendant de l'instant t=256 à l'instant t=511). Ensuite, lors de l'acquisition des 30 échantillons de la trame suivante (t=512 à t=767) et de la détection d'une attaque à t=540, le codeur utilise huit fenêtres courtes pour encoder les échantillons à partir de l'instant t=368 (correspondant à t=512-M/2-Ms/2), jusqu'à l'instant t=655 (correspondant à t=5 12+M/2+Ms/2- 1 , où - 2*M=512 est la taille de la fenêtre longue, et - 2*Ms=64 est la taille de la fenêtre courte, dans l'exemple décrit), et ce, sans fenêtre de transition classique, asymétrique comme celle représentée sur les figures lb et 1c relatives à l'art antérieur.
Au niveau du décodeur, lors de la réception de la trame encodée avec des fenêtres courtes, le décodeur procède alors aux opérations suivantes : • réception d'une information issue du codeur indiquant que des fenêtres courtes doivent être utilisées pour la trame courante, • application d'un traitement avantageux pour compenser la transition directe d'une fenêtre longue à une fenêtre courte au codage, un exemple de ce traitement étant décrit en détail plus loin, en référence à la figure 5b. 15 Les figures 3a et 3b illustrent le procédé de codage/décodage au sens de l'invention pour obtenir d'une part les échantillons a et b qui se trouvent dans une zone sans recouvrement entre les fenêtres longues et courtes (figure 3a), et d'autre part les échantillons e et f se trouvant dans cette zone de recouvrement (figure 3b). En 20 particulier, cette zone de recouvrement est définie par le front descendant de la fenêtre longue FL et le front montant de la première fenêtre courte FC.
Ainsi, en référence aux figures 3a et 3b, au codage, les échantillons des trames T;_1 et T; sont pondérés par la fenêtre longue d'analyse FL pour constituer la trame codée T'; 25 et les échantillons de la trame suivante T; et T;+i sont pondérés directement par des fenêtres d'analyse courtes FC, sans appliquer de fenêtre de transition.
On remarquera aussi, en référence aux figures 3a et 3b, que la première fenêtre courte d'analyse FC est précédée par des valeurs non prises en compte par les fenêtres courtes 30 (pour les échantillons précédant l'échantillon e dans l'exemple de la figure 3b). Plus particulièrement, ce traitement s'applique aux M/2-Ms/2 premiers échantillons de la trame à coder T'1+1, et ce, de façon analogue aux codeurs/décodeurs de l'art antérieur. De manière générale, on cherche à perturber le moins possible les traitements réalisés au codage, comme au décodage, par rapport à l'art antérieur. C'est ainsi qu'il est choisi par exemple d'ignorer les premiers échantillons de la trame codée T'1+1. Bien entendu, sur les figures 3a et 3b, on a représenté uniquement le cas de deux fenêtres courtes (Ms = M/2) d'analyse FC. Néanmoins, on prévoit, comme dans l'art antérieur, une succession de plusieurs fenêtres courtes et chaque succession de fenêtres courtes est illustré sur ces figures 3a et 3b en portant la référence FC.
Dans ce qui suit, on décrit deux exemples de réalisation pour décoder une trame T'1+1 qui a été codée en utilisant une fenêtre courte FC alors qu'une trame immédiatement précédente T'1 avait été codée en utilisant une fenêtre longue FL. Dans une première forme de réalisation, on s'affranchit complètement de l'utilisation de fenêtres de synthèse au décodage et l'on démontre que la propriété de reconstruction parfaite est assurée.
20 Sur la figure 3a, lors de la détection d'une attaque nécessitant unchangement de fenêtre (d'une fenêtre longue directement à une fenêtre courte), on synthétise tout d'abord les échantillons à partir des fenêtres courtes uniquement (échantillon b sur la figure 3a). Puis, on compense dans la valeur vl calculée à partir de la fenêtre longue d'analyse l'effet de l'échantillon b calculé au préalable. Le calcul de codage (trame 25 codée T';) pour l'échantillon a s'effectue alors comme suit : vl = a*h(M+n) + b*h(2*M-1-n). En revanche, l'échantillon a n'est pas pondéré dans la valeur de codage v2 puisque le calcul de pondération à partir de la fenêtre courte suivie d'une combinaison s'effectue 30 sur un support temporel distinct (trame codée T'1+1), et on a après reconstruction à partir des fenêtres courtes :15 v2 = b
On vérifie avantageusement la reconstruction parfaite dans le codage/décodage au sens de l'invention. En effet : a' = (vi - v2* h(2*M-1-n))/ h(M+n) = a On remarquera aussi, au décodage, que les échantillons tirés des valeurs v2=b et les suivants doivent être déterminés en premier, avant la détermination des échantillons du début de la trame (comme l'échantillon a). On procède donc à un renversement temporel lors du décodage.
Sur la figure 3b, on calcule les échantillons codés de la zone de transition entre la fenêtre longue FL (front descendant) et la première fenêtre courte FC (front montant), au niveau donc des échantillons e et f. L'expression des coefficients codés (ou valeurs v1 et v2 ci-après) est donnée, dans cette zone de recouvrement entre les deux fenêtres FL et FC, par les équations suivantes : vl = e*h(M+n) + f*h(2*M-1-n), et v2 = f*hs(Ms-1-m) - e*hs(m) Au décodeur, on doit donc résoudre ce système d'équations à deux inconnues pour retrouver les valeurs des échantillons e et f : e=[vl* hs(Ms- 1 -m)-v2 * h(2 * M- 1 -n)]/ [h(M+n)* hs(Ms- 1 -m)+hs(m)* h(2 * M- 1 -n)] f = [vl *hs(m) + v2*h(M+n)]/[ hs(Ms- 1 -m) * h(M+n) + h(2*M-1-n) *hs(m)] On en déduit encore les formules vérifiant avantageusement la propriété de reconstruction parfaite : e'= [vi *hs(Ms+m) - v2*h(n)] / [h(M+n)*hs(Ms+m) + h(2*M-1-n)*hs(m)] = e, et f= [vl*hs(2*Ms-1-m) + v2*h(M-1-n)] / [h(M+n)*hs(Ms+m) + h(2 * M- 1 -n) * hs(m)] = f, avec m = n ù M/2 +Ms/2 1730 On relèvera que la valeur v2 est pondérée par la fenêtre longue h, et ce, contrairement à ce qui était établi dans l'art antérieur (où v2 était pondérée par la fenêtre courte hs comme le montre le bas de la figure 1c).
Dans une seconde forme de réalisation, on conserve des fenêtres de synthèse au décodage. Elles sont de même forme que les fenêtres d'analyse (homologues ou duales des fenêtres d'analyse), telles qu'illustrées sur les figures 3a et 3b et portant la référence FLS pour une fenêtre longue, de synthèse, et la référence FCS pour une fenêtre courte, de synthèse. Cette seconde forme de réalisation présente l'avantage d'être conforme au fonctionnement des décodeurs de l'état de l'art, à savoir utiliser une fenêtre de synthèse longue pour décoder une trame qui a été codée avec une fenêtre d'analyse longue et utiliser une série de fenêtres de synthèse courtes pour décoder une trame qui a été codée avec une série de fenêtres d'analyse courtes.
En revanche, on applique une correction de ces fenêtres de synthèse, par compensation , pour décoder une trame qui a été codée avec une fenêtre longue, alors qu'elle aurait dû être codée avec une fenêtre de transition long-court. En d'autres termes, pour compenser l'effet du passage direct d'une fenêtre longue à une fenêtre courte, au codeur, on réalise le traitement ci-après pour décoder une trame courante T';+1 qui a été codée en utilisant une fenêtre courte FC tandis qu'une trame immédiatement précédente T'; avait été codée en utilisant une fenêtre longue FL.
Les équations données ci-dessus pour le décodage et liant les échantillons a, b, e, f aux valeurs v1 et v2, peuvent être réécrites sous la forme de sommes pondérées de deux termes, comme suit, en procédant en particulier à un renversement temporel.
D'abord, on se place dans les premières fenêtres courtes de synthèse FCS et après la zone de recouvrement précitée (typiquement à l'échantillon v2=b et les suivants dans l'illustration à titre explicatif de la figure 3a). Pour le décodage de cette partie sans recouvrement, à partir de fenêtres de synthèse courtes FCS uniquement, on décode d'abord les valeurs de la trame codée T';+1 à partir de v2=b (figure 3a). Une fois
que les échantillons b et les suivants sont décodés, on applique la somme pondérée de deux termes suivante : xn=w1nln+w2,nsm_1-n, avec 0<-n<M/2-Ms/2, où: xn représente les échantillons décodés (correspondant aux échantillons initiaux xn , puisque le codage/décodage est à reconstruction parfaite), la notation ln désigne ce qui correspondrait à des échantillons qui auraient été décodés (application d'une transformation inverse DCT"1) en utilisant une fenêtre de synthèse longue FLS, sans correction, et - s,, représente les échantillons complètement décodés (typiquement l'échantillon b et les échantillons qui le suivent) à l'aide de la succession de fenêtres courtes de synthèse FCS. Les deux fonctions de pondération wl ,, et w2 , s'écrivent alors :
won = 1 et w2n --h(2Mùnù1) -- h(n) , avec 0<ùn<M/2ùMs/2 h-(M+n) h(M+n) h(M+n) On comprendra que les échantillons -in sont en réalité des valeurs incomplètement décodées par synthèse et pondération en utilisant la fenêtre longue de synthèse. Il s'agit typiquement des valeurs v1 de la figure 3a, multipliées par les coefficients h(M+n) de la fenêtre FLS, et dans lesquelles interviennent encore des échantillons de début de la trame T1, tels que l'échantillon a. On remarquera aussi que les échantillons b et les suivants sont, ici, déterminés en premier et s'écrivent dans la formule donnée ci-avant SM_,_n , illustrant ainsi le renversement temporel que propose le traitement de décodage dans cette seconde forme de réalisation.
On remarque aussi que la pondération effectuée par la fenêtre longue de synthèse FLS est évitée car celle-ci se retrouve retirée du terme wi,,, (du fait de la division par h(M+n)).
Par ailleurs, pour la reconstruction de la portion d'échantillons couverte à la fois par la fenêtre longue FL (front descendant) et la première fenêtre courte FC (front montant), correspondant à la région des échantillons e à f de la figure 3b, on applique plutôt la combinaison suivante de deux termes pondérés : xn =WinSm+W2nln,avec m=nùM/2+Ms/2 et M/2ùMs/2<_n<M/2+Ms/2 Comme précédemment, les termes ln constituent les valeurs incomplètement reconstituées par synthèse et pondération par la fenêtre longue de synthèse FLS et les termes sn représentent les valeurs incomplètement reconstituées à partir du front montant de la première fenêtre de synthèse courte FCS.
Les fonctions de pondération w'1 n et w'2 n sont données ici par : h(n)ùh,(~)h (Ms -1ùm) h,(Ms-1ùm) h(Mù1ùn) h(Mù1ùn) 7ù7 , wl'n h(Mù1ùn)h, (M, -1-m)+h(n)h, (m) et w2n = h(M-1ùn)h, (M, -1ùm)+h(n)h, (m) Toutes ces fonctions de pondération w1,, wz n , w,'", et wz n sont constituées d'éléments figés qui ne dépendent que des fenêtres longues et courtes. Des exemples de variation de telles fonctions de pondération sont présentés sur les figures 4a et 4b. Dans une réalisation avantageuse, les valeurs prises par ces fonctions peuvent être calculées a priori (tabulées) et stockées définitivement en mémoire d'un décodeur au sens de l'invention.
Ainsi, en référence à la figure 5b, le traitement au décodage d'une trame T'; qui a été codée en passant directement d'une fenêtre d'analyse longue à une fenêtre d'analyse courte, peut comporter les étapes suivantes, dans un exemple de réalisation. Pour décoder la trame T'; (étape 60), on applique d'abord une fenêtre de synthèse courte (étape 61) pour décoder la valeur v2==b (étape 63) de fin de trame. On s'appuie ici sur une trame codée suivante T';+1 (étape 62) pour déterminer b. On applique ensuite une fenêtre de synthèse longue (étape 64) pour décoder les échantillons a de début de trame T'; (étape 65), en appliquant la compensation pour tout n compris entre 0 et M/2-Ms/2 à l'aide de la relation xn = wi nln +w,, nsM_l_n (étape 67) et en utilisant les valeurs de pondération pré-calculées et tabulées w, , et w2 n (étape 66). Le décodage de la région centrale de la trame codée T'; (entre e et f), donc pour n compris entre M/2-Ms/2 et M/2+Ms/2, peut être mené en parallèle (signe + de la figure 5b) en utilisant à la fois les fenêtres de synthèse courte et longue (étape 68) et en appliquant en particulier la compensation (étape 69) à partir de la relation xn = WI.nS m+W2,nln , où m = n - M / 2 + Ms / 2 et avec les valeurs de pondération et W'2 ,n pré-calculées et tabulées (étape 70). On déduit finalement de ce traitement (étape 71) les valeurs de tous les types d'échantillons a, b, e ou f de la trame initiale T.
Les première et seconde formes de réalisation décrites ci-avant, au décodage d'une trame T'; qui a été codée en passant directement d'une fenêtre d'analyse longue à une fenêtre d'analyse courte, garantissent une reconstruction parfaite et permettent alors, au codage, de passer effectivement d'une fenêtre longue à une fenêtre courte, directement.
On décrit maintenant, en référence à la figure 5a, un exemple de réalisation dans lequel il est proposé de s'affranchir, au codage, de l'application d'une fenêtre de transition long-court, au moins dans certains cas.
Sur réception d'une trame Ti (étape 50), on cherche dans le signal audionumérique présent directement dans cette trame Ti la présence d'un phénomène non stationnaire, tel qu'une attaque ATT (test 51). Tant qu'aucun phénomène de ce type n'est détecté (flèche n en sortie du test 51), on continue l'application de fenêtres longues (étape 52) pour le codage de cette trame Ti (étape 56). Sinon (flèche o en sortie du test 51), on cherche à déterminer si le phénomène ATT est au début (par exemple dans la première moitié) de la trame courante Ti (test 53), auquel cas (flèche o en sortie du test 53) on applique directement une fenêtre courte (étape 54), et plus exactement une série de fenêtres courtes, pour le codage de la trame Ti (étape 56). Cette réalisation permet alors d'éviter une fenêtre de transition et de ne pas attendre la trame suivante T1+1 pour appliquer une fenêtre courte.
Ainsi, on comprendra que, contrairement à l'état de l'art, on peut détecter un événement particulier tel qu'un phénomène non stationnaire directement dans la trame en cours de codage Ti et non pas dans une trame suivante T;+1. Le retard du codage au sens de l'invention est alors réduit par rapport à celui de l'art antérieur. En effet, si le phénomène non stationnaire est détecté en début de trame courante, on applique directement une fenêtre courte, alors que dans l'art antérieur, il aurait fallu détecter le phénomène non stationnaire dans une trame suivante T;+1 de manière à pouvoir appliquer une fenêtre de transition à la trame en cours de codage Ti.
En référence encore à la figure 5a, si le phénomène non stationnaire est détecté en fin (par exemple dans la seconde moitié) de la trame courante Ti (flèche n en sortie du test 53), on peut avantageusement choisir d'appliquer une fenêtre de transition (étape 55) pour le codage de la trame en cours Ti (étape 56), avant d'appliquer une succession de fenêtres courtes. Cette réalisation permet notamment de proposer un traitement équivalent à celui de l'état de l'art, tout en assurant un retard de codage réduit.
Ainsi, en termes plus génériques, on prévoit dans ce mode de réalisation au moins trois fenêtres de pondération : une fenêtre courte, une fenêtre longue, et une fenêtre de transition pour passer d'une utilisation de la fenêtre longue à une utilisation de la fenêtre courte, et si un événement particulier tel qu'un phénomène non stationnaire est détecté en fin de trame courante (étape 53), on applique une fenêtre de transition (étape 55) pour coder (étape 56) la trame courante (T;).
Dans une variante de ce mode de réalisation, il peut être prévu, pour un passage entre une utilisation de fenêtre longue à une utilisation de fenêtre courte : pour une trame courante Ti, d'utiliser une fenêtre longue FL, et pour une trame immédiatement consécutive T;+1, d'utiliser directement une fenêtre courte FC, sans utiliser de fenêtre de transition, quand bien même l'événement particulier serait détecté en fin de trame courante.
Cette variante présente l'avantage suivant. Comme le codeur doit envoyer au décodeur une information de changement de type de fenêtre, cette information peut être codée sur un seul bit car il n'y a plus à informer le décodeur du choix entre une fenêtre courte et une fenêtre de transition.
On peut néanmoins conserver une fenêtre de transition pour passer d'une fenêtre courte à une fenêtre longue et, notamment pour assurer encore la transmission de l'information de changement de type de fenêtre sur un seul bit, suite à la réception d'une information de passage de la fenêtre longue à la fenêtre courte, le décodeur peut à cet effet : utiliser la fenêtre courte, - puis, en l'absence de réception d'information de changement de type de fenêtre, utiliser une fenêtre de transition d'une fenêtre courte à une fenêtre longue, - puis enfin, utiliser une fenêtre longue.
On a illustré sur la figure 6 la communication d'information du type de fenêtre utilisée au codage, d'un codeur 10 vers un décodeur 20. On rappelle que le codeur 10 comporte un module de détection 11 d'un événement particulier tel qu'une attaque forte dans le signal contenu dans une trame T; en cours de codage et qu'il déduit de cette détection le type de fenêtre à utiliser. A cet effet, un module 12 sélectionne le type de fenêtre à utiliser et transmet cette information au module 13 de codage qui délivre la trame T'; codée en utilisant la fenêtre d'analyse FA sélectionnée par le module 12. La trame codée T'; est transmise au décodeur 20, avec l'information INF sur le type de fenêtre utilisée au codage (généralement dans un même flux). Le décodeur 20 comporte un module 22 de sélection de fenêtre de synthèse FS selon l'information INF reçue du codeur 10 et le module 23 applique le décodage de la trame T'; pour délivrer une trame décodée La présente invention vise aussi un codeur tel que le codeur 10 de la figure 6 pour la mise en oeuvre du procédé au sens de l'invention et plus particulièrement pour la mise en oeuvre du traitement illustré sur la figure 5a, ou de sa variante décrite précédemment (transmission de l'information de changement de type de fenêtre sur un seul bit).
La présente invention vise aussi un programme informatique, destiné à être stocké en mémoire d'un tel codeur et comportant des instructions pour la mise en oeuvre d'un tel traitement, ou de sa variante, lorsqu'un tel programme est exécuté par un processeur du codeur. A ce titre, la figure 5a peut représenter l'organigramme d'un tel programme.
On rappelle que le codeur 10 utilise des fenêtres d'analyse FA et le décodeur 20 peut utiliser des fenêtres de synthèse FS, selon la seconde forme de réalisation précitée, ces fenêtres de synthèse étant homologues des fenêtres d'analyse FA, en procédant toutefois à la correction par compensation décrite précédemment (en utilisant les fonctions de pondération wi,,, , w2,,, , wet w '2,n).
La présente invention vise aussi un autre programme informatique, destiné à être stocké en mémoire d'un décodeur par transformée tel que le décodeur 20 illustré sur la figure 6, et comportant des instructions pour la mise en oeuvre du décodage selon la première forme de réalisation, ou selon la seconde forme de réalisation décrite ci-avant en référence à la figure 5b, lorsqu'un tel programme est exécuté par un processeur de ce décodeur 20. A ce titre, la figure 5b peut représenter l'organigramme d'un tel programme.
La présente invention vise aussi le décodeur par transformée, lui-même, comportant alors une mémoire stockant les instructions d'un programme informatique pour le décodage.
En termes génériques, le procédé de décodage au sens de l'invention, par transformée, d'un signal représenté par une succession de trames qui ont été codées en utilisant au moins deux types de fenêtres de pondération, de longueurs respectives distinctes, se fait comme suit.
En cas de réception d'une information de passage d'une fenêtre longue à une fenêtre courte : on détermine des échantillons (de type b) à partir d'un décodage appliquant un type de fenêtre de synthèse courte FCS à une trame donnée T';+1 qui a été codée en utilisant une fenêtre d'analyse courte FC, et on obtient des échantillons complémentaires en : • décodant partiellement (application d'une transformée inverse DCT-1) une trame T'1 précédant la trame donnée et qui a été codée en utilisant un type de fenêtre d'analyse longue FL, et • en appliquant une combinaison de deux termes pondérés faisant intervenir des fonctions de pondération qui peuvent être tabulées et stockées en mémoire d'un décodeur.
Dans la seconde forme de réalisation ci-avant, il s'agit des fonctions notées w1,,,, W2,n , w'l,n, W'2,n.
Toutefois, ce traitement générique au décodage s'applique dans les deux cas des première et seconde formes de réalisation.30 Dans la seconde forme de réalisation : - on détermine d'abord (étape 63 de la figure 5b) les échantillons (b) issus de la trame donnée (T';+1), et on en déduit (étapes 65-67) des échantillons (a) correspondant temporellement au début de la trame précédente (T';), ces échantillons étant issus d'un décodage appliquant une fenêtre de synthèse longue FLS et propre à la seconde forme de réalisation.
Dans ce cas, pour : une trame comportant M échantillons, une fenêtre longue comportant 2M échantillons, une fenêtre courte comportant 2Ms échantillons, Ms étant inférieur à m, les échantillons xn , pour n compris entre 0 et (M/2-Ms/2), n=0 correspondant au début d'une trame en cours de décodage, sont donnés par une combinaison de deux termes 15 pondérés du type : xn = W1 nln +W2 nSMù1ùn , Oë : - in sont des valeurs (vl) issues de la trame précédente T';, sM_1_n sont des échantillons (b) déjà décodés en utilisant des fenêtres de synthèse courtes appliquées à la trame donnée et 20 - w, , et w2 , sont des fonctions de pondération dont les valeurs prises en fonction de n peuvent être tabulées et stockées en mémoire du décodeur.
Sinon, pour n compris entre (M/2-Ms/2) et (M/2+Ms/2), les échantillons Xn sont donnés par une combinaison de deux termes pondérés du type : 25 xn ù WI,nS m +W2,nln , avec m = n ù M /2+ Ms /2, ou : - in sont des valeurs v1 issues de la trame précédente T';, - S m sont des valeurs v2 issues de la trame donnée T';+1, et - w'1 n et W'2 ,n sont des fonctions de pondération dont les valeurs prises en fonction de n peuvent être aussi tabulées et stockées en mémoire du décodeur.
La présente invention permet donc d'offrir la transition entre fenêtres avec un retard réduit par rapport à l'art antérieur tout en conservant la propriété de reconstruction parfaite de la transformée. Ce procédé peut être appliqué avec tous types de fenêtres (fenêtres non symétriques et fenêtres d'analyse et synthèse différentes) et pour différentes transformées et bancs de filtres.
Les traitements de compensation présentés ci-dessus dans le cas d'une transition d'une fenêtre longue vers une fenêtre de taille plus courte s'étendent naturellement et de façon analogue au cas d'une transition d'une fenêtre courte vers une fenêtre de taille supérieure. Dans ce cas, l'absence de fenêtre de transition court-long peut être compensée au décodeur par une pondération analogue au cas présenté ci-dessus.
L'invention s'applique alors à tout codeur par transformée, notamment ceux prévus pour des applications conversationnelles interactives, comme dans la norme MPEG-4 AAC - Low Delay , mais aussi à des transformées différentes des transformées MDCT, notamment les transformées précitées ELT (pour Extended Lapped Transform ) et leurs extensions bi-orthogonales.
Claims (14)
1. Procédé de codage/décodage, par transformée, d'un signal audionumérique représenté par une succession de trames, dans lequel : on prévoit au moins deux fenêtres de pondération, de longueurs respectives distinctes, et on utilise une fenêtre courte pour coder une trame dans laquelle un événement particulier a été détecté, caractérisé en ce que, pour le codage d'une trame courante (Ti), on cherche à détecter (51) l'événement particulier dans ladite trame courante (Ti), et : - au moins si l'événement particulier est détecté en début de trame courante (53), on applique une fenêtre courte (54) pour coder (56) la trame courante (Ti), - si l'événement particulier n'est pas détecté dans la trame courante, on applique une fenêtre longue (54) pour coder (56) la trame courante (Ti), et on réitère ces étapes pour une trame suivante (T,+1).
2. Procédé selon la revendication 1, caractérisé en ce que ledit événement particulier est un phénomène non stationnaire.
3. Procédé selon l'une des revendications 1 et 2, dans lequel on prévoit au moins trois fenêtres de pondération : une fenêtre courte, - une fenêtre longue, et une fenêtre de transition pour passer d'une utilisation de la fenêtre longue à une utilisation de la fenêtre courte, caractérisé en ce que si l'événement particulier est détecté en fin de trame courante (53), on applique la fenêtre de transition (55) pour coder (56) la trame courante (Ti).
4. Procédé selon l'une des revendications 1 et 2, caractérisé en ce que, pour un passage entre une utilisation de fenêtre longue à une utilisation de fenêtre courte : 28pour une trame courante, on utilise la fenêtre longue, et pour une trame immédiatement consécutive, on utilise directement la fenêtre courte, sans utiliser de fenêtre de transition, et en ce qu'une information de changement de type de fenêtre, envoyée d'un codeur à un décodeur homologue, est codée sur un seul bit.
5. Procédé selon l'une des revendications précédentes, caractérisé en ce qu'un décodeur recevant une information de passage de la fenêtre longue à la fenêtre courte : utilise la fenêtre courte, - puis, en l'absence de réception d'information de changement de type de fenêtre, utilise une fenêtre de transition d'une fenêtre courte à une fenêtre longue, - puis utilise une fenêtre longue.
6. Procédé selon l'une des revendications précédentes, dans lequel un décodeur utilise des fenêtres de synthèse, duales de fenêtres d'analyse qu'utilise un codeur homologue du décodeur, caractérisé en ce qu'au décodage d'une trame (T';) codée en passant d'une fenêtre longue (FL) à une fenêtre courte (FC), une compensation est menée et le codage/décodage présente une propriété de reconstruction parfaite de la transformée.
7. Procédé de décodage, par transformée, d'un signal représenté par une succession de trames qui ont été codées en utilisant au moins deux types de fenêtres de pondération, de longueurs respectives distinctes, dans lequel, en cas de réception d'une information de passage d'une fenêtre longue à une fenêtre courte : - on détermine (63) des échantillons (b) à partir d'un décodage appliquant un type de fenêtre de synthèse courte (61) à une trame donnée (T';+1) qui a été codée en utilisant une fenêtre d'analyse courte, et - on obtient des échantillons complémentaires (67,69) en : • décodant partiellement (DCT-I) une trame (T';) précédant la trame donnée et qui a été codée en utilisant un type de fenêtre d'analyse longue, et• en appliquant une combinaison de deux termes pondérés faisant intervenir des fonctions de pondération (w 1,n, w2,n ; w'l,n, w'2,,,) tabulées et stockées en mémoire d'un décodeur.
8. Procédé selon la revendication 7, caractérisé en ce que : on détermine d'abord (63) les échantillons (b) issus de la trame donnée (T'1+1), et on en déduit (65-67) des échantillons (a) correspondant temporellement au début de la trame précédente (T'1), ces échantillons étant issus d'un décodage appliquant une fenêtre de synthèse longue.
9. Procédé selon la revendication 8, dans lequel : une trame comporte M échantillons, une fenêtre longue comporte 2M échantillons, une fenêtre courte comporte 2Ms échantillons, Ms étant inférieur à m, caractérisé en ce que les échantillons xn , pour n compris entre 0 et (M/2-Ms/2), n=0 correspondant au début d'une trame en cours de décodage, sont donnés par une combinaison de deux termes pondérés du type : = = WI nln + w2 nSMù1ùn , Oë : - in sont des valeurs (vl) issues de la trame précédente (T'1), sont des échantillons (b) déjà décodés en utilisant des fenêtres de synthèse courtes appliquées à la trame donnée (T'1+1), et - w, n et w2 n sont des fonctions de pondération dont les valeurs prises en fonction de n sont tabulées et stockées en mémoire du décodeur.
10. Procédé selon l'une des revendications 7 à 9, dans lequel : - une trame comporte M échantillons, - une fenêtre longue comporte 2M échantillons, - une fenêtre courte comporte 2Ms échantillons, Ms étant inférieur à m,caractérisé en ce que les échantillons , pour n compris entre (M/2-Ms/2) et (M/2+Ms/2), n=0 correspondant au début d'une trame en cours de décodage,, sont donnés par une combinaison de deux termes pondérés du type : xn =wl,ns,n+w2,nln,avec m=n-M/2+Ms/2, où: - lä sont des valeurs (vl) issues de la trame précédente (T';), - S -m sont des valeurs (v2) issues de la trame donnée (T';+1), et - w', n et w'2 ä sont des fonctions de pondération dont les valeurs prises en fonction de n sont tabulées et stockées en mémoire du décodeur.
11. Codeur par transformée, d'un signal audionumérique représenté par une succession de trames, le codeur utilisant au moins deux fenêtres de pondération, de longueurs respectives distinctes, caractérisé en ce qu'il comporte au moins : un module de détection (1l) d'un événement particulier dans une trame courante à coder (Ti), un module de sélection (12) : * d'une fenêtre d'analyse courte pour coder la trame courante (Ti) au moins si l'événement particulier est détecté en début de trame courante, et * d'une fenêtre d'analyse longue pour coder la trame courante (Ti) si l'événement particulier n'est pas détecté dans la trame courante, et un module de codage (13), appliquant la fenêtre d'analyse sélectionnée par le module de sélection (12), pour le codage de la trame courante (Ti).
12. Programme informatique, destiné à être stocké en mémoire d'un codeur selon la revendication 11, caractérisé en ce qu'il comporte des instructions pour la mise en oeuvre du procédé selon l'une des revendications 1 à 6, lorsqu'il est exécuté par un processeur d'un tel codeur.
13. Programme informatique, destiné à être stocké en mémoire d'un décodeur par transformée, caractérisé en ce qu'il comporte des instructions pour la mise en oeuvre duprocédé de décodage selon l'une des revendications 7 à 10, lorsqu'il est exécuté par un processeur d'un tel décodeur.
14. Décodeur par transformée, caractérisé en ce qu'il comporte une mémoire stockant 5 les instructions d'un programme informatique selon la revendication 13.
Priority Applications (11)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| FR0700056A FR2911227A1 (fr) | 2007-01-05 | 2007-01-05 | Codage par transformee, utilisant des fenetres de ponderation et a faible retard |
| FR0702768A FR2911228A1 (fr) | 2007-01-05 | 2007-04-17 | Codage par transformee, utilisant des fenetres de ponderation et a faible retard. |
| AT07871956T ATE498886T1 (de) | 2007-01-05 | 2007-12-18 | Transformationsködierung mit geringer verzögerung unter verwendung von gewichtgsfenstern |
| PCT/FR2007/052541 WO2008081144A2 (fr) | 2007-01-05 | 2007-12-18 | Codage par transformee, utilisant des fenetres de ponderation et a faible retard |
| ES07871956T ES2360898T3 (es) | 2007-01-05 | 2007-12-18 | Codificación por transformada, utilizando ventanas de ponderación y con retardo pequeño. |
| DE602007012587T DE602007012587D1 (de) | 2007-01-05 | 2007-12-18 | Transformationsködierung mit geringer verzögerung unter verwendung von gewichtgsfenstern |
| JP2009544424A JP5247721B2 (ja) | 2007-01-05 | 2007-12-18 | 重み付けウィンドウを用いた低遅延変換符号化 |
| KR1020097016337A KR101437127B1 (ko) | 2007-01-05 | 2007-12-18 | 가중 윈도우들을 사용한 저-지연 변환 코딩 |
| CN200780051256.3A CN101611440B (zh) | 2007-01-05 | 2007-12-18 | 一种使用加权窗的低延时变换编码的方法 |
| EP07871956A EP2104936B1 (fr) | 2007-01-05 | 2007-12-18 | Codage par transformee, utilisant des fenetres de ponderation et a faible retard |
| US12/448,734 US8615390B2 (en) | 2007-01-05 | 2007-12-18 | Low-delay transform coding using weighting windows |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| FR0700056A FR2911227A1 (fr) | 2007-01-05 | 2007-01-05 | Codage par transformee, utilisant des fenetres de ponderation et a faible retard |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| FR2911227A1 true FR2911227A1 (fr) | 2008-07-11 |
Family
ID=38230175
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| FR0700056A Pending FR2911227A1 (fr) | 2007-01-05 | 2007-01-05 | Codage par transformee, utilisant des fenetres de ponderation et a faible retard |
Country Status (3)
| Country | Link |
|---|---|
| CN (1) | CN101611440B (fr) |
| ES (1) | ES2360898T3 (fr) |
| FR (1) | FR2911227A1 (fr) |
Families Citing this family (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| EP2619758B1 (fr) * | 2010-10-15 | 2015-08-19 | Huawei Technologies Co., Ltd. | Dispositifs pour la transformation et la transformation inverse de signaux audio, procédés pour l'analyse et la synthèse de signaux audio |
| TWI479478B (zh) * | 2011-02-14 | 2015-04-01 | 弗勞恩霍夫爾協會 | 用以使用對齊的預看部分將音訊信號解碼的裝置與方法 |
| WO2014128197A1 (fr) | 2013-02-20 | 2014-08-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Appareil et procédé de codage ou de décodage d'un signal audio au moyen d'un chevauchement dépendant d'un emplacement de transitoire |
Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5361278A (en) * | 1989-10-06 | 1994-11-01 | Telefunken Fernseh Und Rundfunk Gmbh | Process for transmitting a signal |
| WO1998002971A1 (fr) * | 1996-07-11 | 1998-01-22 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Procede de codage et de decodage de signaux audio |
Family Cites Families (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| DE3902948A1 (de) * | 1989-02-01 | 1990-08-09 | Telefunken Fernseh & Rundfunk | Verfahren zur uebertragung eines signals |
| US5774846A (en) * | 1994-12-19 | 1998-06-30 | Matsushita Electric Industrial Co., Ltd. | Speech coding apparatus, linear prediction coefficient analyzing apparatus and noise reducing apparatus |
| US7054807B2 (en) * | 2002-11-08 | 2006-05-30 | Motorola, Inc. | Optimizing encoder for efficiently determining analysis-by-synthesis codebook-related parameters |
| US20040098255A1 (en) * | 2002-11-14 | 2004-05-20 | France Telecom | Generalized analysis-by-synthesis speech coding method, and coder implementing such method |
| KR100608062B1 (ko) * | 2004-08-04 | 2006-08-02 | 삼성전자주식회사 | 오디오 데이터의 고주파수 복원 방법 및 그 장치 |
-
2007
- 2007-01-05 FR FR0700056A patent/FR2911227A1/fr active Pending
- 2007-12-18 CN CN200780051256.3A patent/CN101611440B/zh active Active
- 2007-12-18 ES ES07871956T patent/ES2360898T3/es active Active
Patent Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5361278A (en) * | 1989-10-06 | 1994-11-01 | Telefunken Fernseh Und Rundfunk Gmbh | Process for transmitting a signal |
| WO1998002971A1 (fr) * | 1996-07-11 | 1998-01-22 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Procede de codage et de decodage de signaux audio |
Non-Patent Citations (2)
| Title |
|---|
| EDLER B: "CODIERUNG VON AUDIOSIGNALEN MIT UEBERLAPPENDER TRANSFORMATION UND ADAPTIVEN FENSTERFUNKTIONEN CODING OF AUDIO SIGNALS WITH OVERLAPPING BLOCK TRANSFORM AND ADAPTIVE WINDOW FUNCTIONS", FREQUENZ, SCHIELE UND SCHON, BERLIN, DE, vol. 43, no. 9, 1 September 1989 (1989-09-01), pages 252 - 256, XP000052987, ISSN: 0016-1136 * |
| OMAR NIAMUT ET AL: "RD OPTIMAL TIME SEGMENTATIONS FOR THE TIME-VARYING MDCT", PROCEEDINGS OF THE EUROPEAN SIGNAL PROCESSING CONFERENCE, XX, XX, 6 September 2004 (2004-09-06), pages 1649 - 1652, XP002391769 * |
Also Published As
| Publication number | Publication date |
|---|---|
| CN101611440B (zh) | 2013-02-13 |
| CN101611440A (zh) | 2009-12-23 |
| ES2360898T3 (es) | 2011-06-10 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| EP2104936B1 (fr) | Codage par transformee, utilisant des fenetres de ponderation et a faible retard | |
| EP3391370B1 (fr) | Traitement de réduction de canaux adaptatif pour le codage d'un signal audio multicanal | |
| EP3161659B1 (fr) | Ré-échantillonnage par interpolation d'un signal audio pour un codage /décodage à bas retard | |
| CA2839971C (fr) | Fenetres de ponderation en codage/decodage par transformee avec recouvrement, optimisees en retard | |
| WO2007093726A2 (fr) | Dispositif de ponderation perceptuelle en codage/decodage audio | |
| WO2007007001A2 (fr) | Dispositif de codage/decodage hierarchique | |
| FR2929466A1 (fr) | Dissimulation d'erreur de transmission dans un signal numerique dans une structure de decodage hierarchique | |
| FR2969805A1 (fr) | Codage bas retard alternant codage predictif et codage par transformee | |
| WO2011004098A1 (fr) | Allocation de bits dans un codage/décodage d'amélioration d'un codage/décodage hiérarchique de signaux audionumériques | |
| EP3175443B1 (fr) | Détermination d'un budget de codage d'une trame de transition lpd/fd | |
| EP3084959B1 (fr) | Ré-échantillonnage d'un signal audio cadencé à une fréquence d'échantillonnage variable selon la trame | |
| EP2232489B1 (fr) | Codage/decodage par transformee, a fenetres adaptatives | |
| EP1275109B1 (fr) | Methode et dispositif d'enrichissement spectral | |
| EP2347411A1 (fr) | Attenuation de pre-echos dans un signal audionumerique | |
| WO2012080649A1 (fr) | Codage perfectionne d'un etage d'amelioration dans un codeur hierarchique | |
| FR2911227A1 (fr) | Codage par transformee, utilisant des fenetres de ponderation et a faible retard | |
| WO2010040937A1 (fr) | Codage a echantillonnage critique avec codeur predictif | |
| WO2011073600A1 (fr) | Codage/decodage parametrique stereo avec optimisation du traitement de reduction des canaux | |
| FR2821475A1 (fr) | Procede et dispositif de reconstruction spectrale de signaux a plusieurs voies, notamment de signaux stereophoniques | |
| FR3164561A1 (fr) | Post-traitement d’un signal audio selon un modèle de post-traitement issu d’un entrainement optimisé | |
| WO2024213554A1 (fr) | Traitement optimisé de réduction de canaux d'un signal audio stéréophonique | |
| FR3147898A1 (fr) | Traitement optimisé de réduction de canaux d’un signal audio stéréophonique | |
| FR2915306A1 (fr) | Analyse et synthese par transformees avec differents coefficients de recouvrement. | |
| FR2771543A1 (fr) | Procede de debruitage de signaux sonores, notamment pour le traitement de la parole | |
| WO2015145050A1 (fr) | Estimation d'un bruit de codage introduit par un codage en compression de type micda |