EP1982330A2 - Procede de codage d'un signal audio source, dispositif de codage, procede de decodage, signal, support de donnees, produits programme d'ordinateur correspondants - Google Patents
Procede de codage d'un signal audio source, dispositif de codage, procede de decodage, signal, support de donnees, produits programme d'ordinateur correspondantsInfo
- Publication number
- EP1982330A2 EP1982330A2 EP07731600A EP07731600A EP1982330A2 EP 1982330 A2 EP1982330 A2 EP 1982330A2 EP 07731600 A EP07731600 A EP 07731600A EP 07731600 A EP07731600 A EP 07731600A EP 1982330 A2 EP1982330 A2 EP 1982330A2
- Authority
- EP
- European Patent Office
- Prior art keywords
- component
- group
- phase
- components
- datum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 70
- 230000005236 sound signal Effects 0.000 title claims abstract description 44
- 238000004590 computer program Methods 0.000 title claims description 10
- 230000000295 complement effect Effects 0.000 claims abstract description 41
- 238000013139 quantization Methods 0.000 claims description 23
- 238000012937 correction Methods 0.000 claims description 8
- 238000005070 sampling Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000001131 transforming effect Effects 0.000 claims description 3
- 230000008859 change Effects 0.000 abstract description 2
- 230000009466 transformation Effects 0.000 abstract 1
- 230000005540 biological transmission Effects 0.000 description 23
- 230000002123 temporal effect Effects 0.000 description 13
- 238000012545 processing Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 10
- 230000036961 partial effect Effects 0.000 description 10
- 238000010276 construction Methods 0.000 description 7
- 238000013459 approach Methods 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 238000011002 quantification Methods 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000001955 cumulated effect Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000001627 detrimental effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000013213 extrapolation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000000819 phase cycle Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/093—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using sinusoidal excitation models
Definitions
- the field of the invention is that of the coding and decoding of digital audio signals and more specifically of audio signals, such as music or speech signals, comprising a set of harmonics, or sinusoids.
- a particular application of the invention is the improvement of the MPEG Audio standard (ISO / IEC 14496-3) which provides that the audio data is modeled according to parametric coding to allow very low transmission of sound and / or speech. debit.
- the invention is in the context of the transmission, storage and compression of sounds and music effectively.
- a conventional method for efficiently transmitting an audio signal consists firstly in breaking down the latter into sinusoidal components, then in transmitting information relating to these components so that a receiver is able to to render the signal from this information.
- K is the total number of partials contained in the signal;
- - kn represents the amplitude of the partial k during the frame of index n;
- ⁇ ⁇ n (0 represents the phase of the partial k during the frame n;
- T represents the number of samples describing an analysis frame.
- phase ⁇ ⁇ n (t) of a subset of index k depends on its frequency f k, n and its initial phase ⁇ k Q such that:
- the coding of sinusoidal components is intended to code the parameters ⁇ ⁇ , " > / & , " and ⁇ k, o under condensed for ⁇ e by introducing a quantization distortion. These quantified values are then represented by compact way for example using a so-called lossless coding, that is to say reducing the flow of information without affecting the signal of an additional error.
- phase components (/> % $ are not transmitted, this approach is based on the fact that the ear perceives poorly the influence of the phase on a musical signal. then coded as the trajectories of the frequency / ⁇ n and the amplitude a ⁇ n .
- SSC coding for "SinuSoidal Coding" in English proposes an explicit coding of the instantaneous phases.
- a sinusoidal component of index k is represented, on an index analysis frame "by a frequency fk n , an instantaneous phase, ⁇ ⁇ n and an amplitude%", considered constant during this frame.
- the invention particularly aims to overcome these disadvantages of the prior art.
- an object of the present invention is to provide a new parametric encoding technique of the signals, as well as a corresponding decoding technique.
- the proposed solution reduces the transmission rate.
- Another object of the present invention is to provide a technique that significantly reduces the memory space required for storing an encoded harmonic signal.
- one of the objectives of the invention is to provide a technique which is particularly suitable for the transmission or storage of digital audio, speech or music signals, and which allows efficient coding of the sinusoidal components of such a signal.
- Another object of the invention is to provide a technique that is particularly effective in terms of the transmission rate of the components. sinusoidal, while generating a signal distortion equivalent or less than conventional techniques of the prior art.
- a further object of the invention is to provide such a technique which extends or is easily adaptable to most existing specifications in the various standards of the field of coding multimedia signals, such as the MPEG-4 standard in particular. 4. Presentation of the invention
- a method of coding a source audio signal comprising a step of transforming an amplitude / time space into a multi-space components described in amplitude, in phase and in time, implementing a sinusoidal modeling of the audio signal and delivering a plurality of sinusoidal components evolving over time.
- the coding method comprises the following steps: comparing the components with each other, so as to define at least one group of at least two components according to at least one predetermined similarity criterion; coding, for at least one of the groups, of at least one reference datum of the group, said reference datum being represented by an unwound phase resulting from a first component of said group, referred to as the reference component; at least one complement datum, associated with at least one second component of the group, and making it possible to reconstruct, in combination with the reference datum, at least one piece of information representative of at least one component.
- the invention is based on a new and inventive approach to the coding of a source audio signal exploiting the characteristics of the sinusoidal components that constitute it.
- the method of the invention groups and codes the sinusoidal components of the signal having a degree of similarity.
- it is possible to reconstruct each of the components of a group to from the knowledge of the reference component and the corresponding complement data.
- Such a technique makes it possible to avoid coding all the components independently of each other, and thus presents a very important gain in terms of information to be quantified, predicted, stored or transmitted.
- the similarity criterion takes into account an evolution of the phase of at least two components.
- phase evolution is also called unwrapped phase.
- the comparison step implements a correlation calculation between the phase evolution of the two components.
- the correlation coefficient makes it possible to reflect, according to its value, a degree of resemblance.
- the coding step implements differential coding along a time axis comprising: a step of predicting the reference datum and / or the complement datum, with respect to at least one corresponding preceding value;
- the residue is coded according to a period that is a multiple of the component extraction sampling period, and in that information representative of the multiple is generated.
- the coding step implements differential coding along a frequency axis comprising:
- the coding step implements, for each index component k, the following equations:
- n is the time index
- ⁇ kn is the value, at an instant indexed n, of the phase of the index component A:;
- ⁇ ⁇ is a prediction datum, at an indexed instant n, of the phase of the index component k;
- the invention also relates to a computer program product for implementing the coding method as described above.
- the invention also relates to a device for encoding a source audio signal, comprising means for implementing such a method.
- the invention also relates to a coded signal representative of a source audio signal, whose components of such a signal are grouped into at least one group of at least two components according to at least one similarity criterion, each group comprising: at least one reference datum of said group, said reference datum being represented by an unwound phase resulting from a first component of said group, referred to as reference component;
- At least one complement datum associated with at least one second component of the group, and making it possible to reconstruct, in combination with said reference datum, at least one piece of information representative of at least one component.
- This signal can of course include various information produced by the coding method described above.
- the invention also relates to a data carrier comprising at least one such coded signal.
- the invention also relates to a method for decoding such an encoded signal. This process comprises the following steps:
- Such a decoding method makes it possible to decode a signal coded according to the coding method of the invention as described above.
- a decoding method comprises a step of constructing a reconstructed audio signal, representative of the source audio signal, taking into account information representative of the components.
- such a decoding method notably comprises: a step of decoding at least one reference datum, representative of a reference component of the group; a step of decoding at least one complement data representative of another component of the group, by comparison with the reference data; a step of reconstructing the other component by combining the reference data and the complement data.
- the decoding method thus makes it possible to efficiently reconstruct the components having a harmonic link with a reference component (implementation of an "inter" decoding).
- the decoding method comprises a step of interpolation of an estimated complement data item for the instants for which a complement data item has not been used. not been coded.
- ⁇ k, nm is a quantized data, at an instant of nm, of the reconstructed phase of the index component k;
- ⁇ / n is a quantized data, at an indexed instant n, of the reconstructed phase of the index component /;
- ⁇ / n _ m is a quantized data, at a time indexed nm, of the reconstructed phase of the index component /;
- fjc is a value of the reconstructed frequency corresponding to the index component k;
- fl is a value of the reconstructed frequency corresponding to the component of the reference group;
- ⁇ ⁇ is a quantization step
- q [index] is an integer value corresponding to a quantized correction value
- such a decoding method comprises: a step of prediction according to a time axis of the reference datum with respect to at least one corresponding preceding value, delivering at least one predicted datum; a step of adding to at least one of the predicted data of a corresponding residue transmitted in the signal so as to obtain a reconstructed real datum.
- the decoding method according to the invention thus makes it possible to reconstruct the non-transmitted data by prediction (implementation of "intra” decoding).
- the residue is coded according to a period that is a multiple of a sampling period
- the decoding method comprises a step of interpolation of an estimated residual for the instants for which a residue has not been coded. More specifically, the decoding method can implement the following equation:
- n -m is 1 ⁇ quantized data, at an instant indexed nm, of the reconstructed phase of the index component k;
- ⁇ yt, M - 2 m is a quantized datum, at an indexed instant n-2m, of the reconstructed phase of said index component k;
- ⁇ p is a quantization step of a quantization error
- q [index] is an integer value corresponding to a quantized correction value.
- the invention also relates to a computer program product for implementing the decoding method as described above.
- the invention finally relates to a device for decoding a coded signal representative of a source audio signal.
- the signal comprises a representation of the source signal in the form of a plurality of sinusoidal components described in a representation space in amplitude, in phase and in time, the components being grouped into at least one group of minus two components according to at least one similarity criterion, each group comprising: at least one reference datum of the group, said reference datum being represented by an unwound phase resulting from a first component of said group, referred to as the reference component;
- the device comprises:
- Such a device can in particular implement the decoding method as described above, and includes the necessary means to do this. 5. List of figures
- FIG. 1 illustrates the linear prediction described in Appendix A
- FIG. 2 is a simplified flowchart of the coding method according to the invention
- FIG. 3 is a graph of the evolution of the phases and frequencies of the sinusoidal components of a source audio signal;
- FIG. 4 is a flowchart of the decoding method according to the invention.
- FIGS. 5A and 5B schematically illustrate a coding device and a decoding device embodying the invention.
- the invention therefore proposes a completely new and efficient approach for coding a harmonic signal, making it possible to improve its transmission or storage, by reducing the bit rate required for the transmission or the memory space for storage, while ensuring a reconstructed signal of high quality, even if the frequency variations over time are important.
- the invention exploits for this in a new and effective way the fact that the sinusoidal components of a signal are closely related.
- ⁇ represents a factor of inharmonicity close to zero and can be neglected for vocal sounds for example. As an example, it is worth 0.0004 for the piano.
- index component k corresponds to a factor a ⁇ , reflecting a relation of harmonicity with the reference component.
- the block diagram of an analysis system for the transmission and coding of an audio signal as proposed by the invention generally comprises three main stages.
- a sound signal x (t) is processed in a sinusoidal analysis step 21, which consists in breaking down the audio signal x (t) into sinusoidal entities and thus extracting, for each component of index k, the information of amplitude a kn , of phase ⁇ kn and finally of frequency f k, n , to each frame of index n.
- a signal x (t) approximated by x (t) of the form: ⁇ - ⁇ x (t) ⁇ ] T a kn cos ( ⁇ )) W (t)) > as already described in the preamble.
- * 0
- This matching step 22 can be performed by comparing in particular the unwound phases of each component.
- Such a step makes it possible to define, for a sinusoidal component of index k, a reference sinusoidal component whose unwrapped phase is denoted by stamp n and a complement datum, a k , representing the relationship existing between this latter component and the reference component.
- a k a complement datum
- the complement data a k , the unwound phase ⁇ n of the reference component as well as the phase, amplitude and frequency information of the index component k are then quantized and coded in a step 23.
- Quantified data representing the signal x (t) are then transmitted (24).
- Such quantized data include â k and quantized basic frequency values (denoted index_fl)), as well as the initial phase of the basic reference, denoted q [0], and also parameters representative of the error. prediction during coding, noted q [l], q [index].
- These last quantized parameters representative of the encoded source audio signal are integer values which are multiplied by a corresponding quantization step during the reconstruction of the signal. They are explained in more detail in the following description. It is from these data that the harmonic index k can be reconstructed by a decoder, without loss of quality.
- the sinusoidal analysis step 21 presented with reference to FIG. 2 thus makes it possible to obtain a representation, for each of the sinusoidal components of the signal, of the evolution of their phase and their frequency. We then speak of phase unrolled. They are illustrated in FIG. 3.
- the abscissa axis represents the time in terms of frames of index n, and the ordinate axis represents the unrolled phase, in radians.
- FIG. 3 shows in particular that it is possible to determine three groups, or entities, 31, 32, 33.
- the entities 31 and 32 each comprise a group of components, represented by their unrolled phase, whereas the entity 33 contains only one sinusoidal component.
- n Nl
- dk n ®kn ⁇ ⁇ / fc ni > that is to say the differentiated unwound phase between the frame of index n and the frame of index n - 1 for the index component k;
- - N is the number of time instants common to the components k and /.
- phase component Run 331 has no similarity to any other component, since the correlation coefficient of this component with any other component is small. It alone represents a third entity 33.
- the entities having a harmonic relation namely the entities 31 and 32 are thus gathered and each of the partials is assigned a factor a ⁇ , or complement data, denoting its harmonic relation with a reference component, whose phase unrolled is noted ⁇ n , and then representing the common trajectory to the considered entity.
- ⁇ j c o is an initial phase correction
- the power of b kn can also be used for the pairing: the sinusoidal components satisfying correctly the preceding equation will indeed be tainted with a variance ⁇ ⁇ weak.
- this pairing can also be done using a maximum likelihood criterion, maximizing the probability of ⁇ ⁇ n knowing the model described by ⁇ n and a % .
- each index component k, of unrolled phase denoted ⁇ kn will be perfectly described by the transmission (or storage) of an unwrapped phase ⁇ / "of a component index reference / selected from the set K of the signal components, the factors a ⁇ as well as the parameters D n , with the index k having a value different from that of the index f.
- a reference value ⁇ n is given , common to all components of the signal to be transmitted, then for each component, the factors ccfr and the parameters b ⁇ , with O ⁇ k ⁇ K - 1.
- the sinusoidal entities are grouped into two families.
- a first family comprising harmonicity links and a second family of components independent of each other (of the type of the entity 33 presented in relation with FIG. 3).
- the estimation error ⁇ n is a residual value which makes it possible to compensate the prediction error during the reconstruction of the signal.
- Intra component quantization mode it is a question of quantifying a phase and frequency evolution, or unrolled phase, relative to itself, without reference to any other component.
- This description is based on a linear prediction technique, known per se.
- the value of the unrolled phase is predicted from its value at the previous instants.
- this prediction technique is extended by using temporal decimations, so as to reduce the bit rate necessary for the transmission of information.
- the linear prediction of the unrolled phase of the index component k at time n + 2m denoted by ⁇ n + 2m " is calculated as follows: with
- n + m is * a quantized value of ⁇ k, n + m > - m is a temporal decimation factor representing a multi-period period sampled
- the extremities will be extrapolated in linear form using the last values received by the decoder.
- the quantization will be performed for example by a scalar quantizer (uniform or not) or vector. This quantification can be followed by an entropic encoder of
- values can be quantified by a scalar quantizer (uniform or not) and possibly also coded by a variable length code. Suitable values for m cover the range 1 ⁇ m ⁇ 16.
- differential coding is implemented here along a time axis.
- Inter coding This type of coding is called Inter coding.
- ⁇ ⁇ ⁇ M -i + ⁇ ( ⁇ /, ⁇ - ⁇ /, «- i) -
- the value at an instant n of the unwound phase of a coded component by Inter coding is obtained on the one hand from its predicted value at a previous instant n-1 ( ⁇ ⁇ M _ j ), and secondly from the predicted value of the unwound phase of an index reference component / at times n and n - ⁇ ( ⁇ ⁇ n and ⁇ / ⁇ _i).
- the signal d kn is the prediction error of the harmonic of index k with respect to the index reference harmonic I, cumulated with the quantization error carried out on ⁇ in . If ⁇ [n is quantized accurately enough, then d kn represents only the prediction error between harmonic.
- this type of Inter coding can also be based on a decimated version of ⁇ / ) W.
- the signals J n may also be transmitted in decimated form. We can then express the prediction of ⁇ ⁇ "in the form:
- dkn will be transmitted only for indexes n multiple of m.
- the elements transmitted in the case of the Inter coding are therefore as follows: a basic component (transmitted in Intra mode according to the preferred embodiment);
- the invention also extends to the transmission of a signal in Intra, common ⁇ n with a k and ⁇ k> 0 , but without transmission of d kn , ⁇ n being able to represent a component to be restored (that is to say a ⁇ n j), or not > according to the chosen embodiment.
- the inventors have found that the performances of these types of coding implementing the decimation are advantageous. For example, the rate versus distortion characteristic of an Intra coding with decimation by a factor of two saves a substantial bit rate compared to a non-decimating Intra transmission of about 30%.
- the invention also relates to the method of decoding a coded and quantized signal as described above.
- the type of coding performed Intra or Inter mode
- two types of decoding are envisaged.
- FIG. 4 represents a general block diagram of the decoding method according to the invention.
- This information is then used in a sinusoidal synthesis step 44, in which the sinusoidal component considered is reconstructed.
- a test 45 is performed to determine whether the processed component is the last or not: "Last component? ". Otherwise, steps 41, 42, 431, 432, 44 and 45 are repeated. If so, a final step 46 of adding a residual is performed before the signal is restored by a loudspeaker 47.
- ⁇ y, A p as the respective quantization steps for the initial frequency and the prediction error on the phase ( ⁇ ⁇ can be different for the first phase value and its following, as it can be made adaptive by the use of a quantizer at the adaptive quantization step).
- Suitable values are of the order of -.
- Index_f ⁇ is the frequency index of the coded component in mode
- index_f ⁇ can be used to point directly in a table making it possible to obtain the reconstructed fa values of fa.
- q [0], q [l] and q [index] are integers corresponding to a quantized value of the phase of the index component k and by which we obtain a reconstructed value by multiplying them by the step of quantification A p applied to the phases.
- q [0] corresponds to the quantized value of the initial phase of a component
- q [l] corresponds to the quantified value of the correction to be applied to the phase of a component at instant.
- multiples of m and q [index] corresponds to the quantized value of the correction to be applied to the phase at instants indexed n (between the multiple instants of m).
- the reconstruction of a component in Intra mode is done as follows: - construction of the basic frequency of the component k from the quantization step of this value and its quantized value: fa ⁇ Aj- * index_f ⁇ ;
- the set of sinusoidal components is then summed to find the deterministic part of the audio signal.
- This deterministic part is then optionally supplemented by a residual signal (step 46), in the form of a comfort noise or by a signal coded by an AAC-type transform coder.
- the method of the invention can be implemented a coding device, the structure of which is presented in connection with FIG. 5 A.
- Such a device comprises a memory M 500, a processing unit 501, equipped for example with a microprocessor, and controlled by the computer program Pg 502.
- the code instructions of the computer program 502 are for example loaded into a RAM memory before being executed by the processor of the processing unit 501.
- the processing unit 501 receives as input a source audio signal to be encoded 503.
- the microprocessor ⁇ P of the processing unit 501 implements the encoding method described above, according to the instructions of the program Pg 502.
- the processing unit 501 outputs quantized data representative of the coded source audio signal 504.
- the invention also relates to a device for decoding a coded signal representative of a source audio signal according to the invention, whose simplified overall structure is illustrated schematically in FIG. 5B. It comprises a memory M 510, a processing unit 511, equipped for example with a microprocessor, and controlled by the computer program Pg 512. At initialization, the code instructions of the computer program 512 are for example loaded into a RAM before being executed by the processor of the processing unit 511.
- the processing unit 511 receives as input 75
- the microprocessor ⁇ P of the processing unit 511 implements the decoding method according to the instructions of the program Pg 112, to deliver a reconstructed audio signal 512.
- the error of estimation, or prediction is The difference ⁇ ⁇ k n + ⁇ phase unwound between two times is also called phase unwinding.
- the fi of the unrolled phase of the partial subscript k at times.
- the x-axis shows the time and the y-axis the value of the unrolled phase ⁇ k ⁇ t).
- a second possible variant to predict the unwrapped phase that is to say to deduce the value of the phase at a time to artir its value to a previous moment, is to use the following relation:
- the conventional technique is then to transmit or store all elements ⁇ k ⁇ n . Being small in front of the elements at ⁇ k n , they will be less expensive in terms of speed or memory.
- uimsbf stands for "unsigned integer most significant bit first" in English (for: most significant bit of unsigned integer first).
- the Intra / Inter mode is read, allowing to know in what form the sine component is read. Depending on the mode read, the syntax is decoded, and the unwrapped phases are reconstructed according to the mode. The index of the component Intra serving as a reference to the next Inter component is constantly updated.
- vlclbf means "variable length code, least bit first" in English (for: variable length code, least significant bit first).
- Huff ⁇ is a function to retrieve an index stored as a variable length code.
- the decimation index is read, followed by a frequency value. Then the initial phase is read followed by prediction errors that will be used to reconstruct the unwrapped phases.
- the following table describes the syntax of the "inter_sinus" function for detecting the Inter coding mode.
- the decimation index is read, followed by a frequency value. Then the initial phase is read followed by prediction errors that will be used to reconstruct the unwrapped phases.
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
L'invention concerne un procédé de codage d'un signal audio source, comprenant une transformation d'un espace amplitude / temps vers un espace multi-composantes décrites en amplitude, phase et temps, mettant en oevre une modélisation sinusoïdale du signal audio et délivrant des composantes sinusoïdales évoluant dans le temps. Le procédé comprend les étapes suivantes : - comparaison entre elles des composantes, pour définir au moins un groupe d'au moins deux composantes selon au moins un critère de similarité ; codage, pour au moins un groupe : d'au moins une donnée de référence, la donnée de référence étant représentée par une phase déroulée issue d'une première composante du groupe, dite composante de référence ; d'au moins une donnée de complément, associée à au moins une seconde composante du groupe, et permettant de reconstruire, en combinaison avec la donnée de référence, au moins une information représentative d'au moins une composante.
Description
Procédé de codage d'un signal audio source, dispositif de codage, procédé de décodage, signal, support de données, produits programme d'ordinateur correspondants.
1. Domaine de l'invention Le domaine de l'invention est celui du codage et du décodage de signaux audionumériques et plus précisément de signaux audio, tels que des signaux de musique ou de parole, comprenant un ensemble d'harmoniques, ou de sinusoïdes. Une application particulière de l'invention est l'amélioration du standard MPEG Audio (ISO/IEC 14496-3) qui prévoit que les données audio sont modélisées selon un codage paramétrique pour permettre une transmission du son et/ou de la parole à très bas débit.
Plus généralement, l'invention se place dans le cadre de la transmission, du stockage et de la compression des sons et de la musique de façon efficace.
2. Solution de l'art antérieur Une méthode classique pour transmettre de façon efficace un signal audio consiste tout d'abord à décomposer ce dernier en composantes sinusoïdales, puis à transmettre des informations relatives à ces composantes de façon qu'un récepteur soit en mesure de restituer le signal à partir de ces informations.
En effet, ces techniques de transmission exploitent les caractéristiques particulières d'une composante sinusoïdale selon laquelle celle-ci est hautement prédictible, et de ce fait, transmissible à un très faible débit.
On détaille ci-après la décomposition d'un signal en composantes sinusoïdales ainsi que les techniques classiques de codage de ce type de signal. 2.1 Analyse sinusoïdale La décomposition de signaux audio en composantes sinusoïdales est bien connue. Pour une présentation exhaustive de cette technique, on peut notamment se référer aux documents R. McAulay, T Quatieri, "Speech analysis/ synthesis based on a sinusoïdal représentation", IEEE Trans. on Acoustics, Speech and Signal Processing, vol. 34(4), pp. 744- 754, 1986 et Y. Medan, E. Yair and D.
Chazan, "Super Resolution Pitch Détermination of Speech Signais" IEEE trans on Signal Processing vol. 39(1), pp. 40-48,1991.
La modélisation sinusoïdale se base sur le principe de décomposition d'un signal en une somme de sinusoïdes de fréquences, d'amplitudes et de phases variables dans le temps (partiels), et de bruit. En ne considérant que la partie déterministe du signal audio x(t), le signal modélisé x(t) s'exprime alors par: κ-ι x(t) = ∑ aktK ∞s(Φktn(t))y avec :
nT ≤ t ≤ nT - \ ;
K correspond au nombre total de partiels contenus dans le signal ; - ak n représente l'amplitude du partiel k durant la trame d'indice n ;
Φ^n(0 représente la phase du partiel k durant la trame n ;
T représente le nombre d'échantillons décrivant une trame d'analyse.
La phase Φ^ n(t) d'un partiel d'indice k dépend de sa fréquence fk,n et de sa phase initiale φk Q telle que :
L'ensemble des trois paramètres (%jπ ,Λ,n et Ψkfi ) permettent ainsi de décrire de façon concise, sur un intervalle de temps T , le signal x(t) à modéliser.
2.2 Codage de composantes sinusoïdales On peut se référer aux documents W. B. Kleijn and K. K. Paliwal, Speech
Coding and Synthesis? Elsevier, Amsterdam, 1995, H. Purnhagen , N. Meine "HILN - The MPEG-4 Parametric Audio Coding Tools", ISCAS 2000 Vol III pp 201-204 etB. den Brinker, E.Schuijers and W.Oomen/'Parametric coding for high-quality audio", in Proc. 112nd AES Convention, Munich, Germany, 2002 pour une explication détaillée du codage et de la transmission des composantes sinusoïdales.
Plus généralement, le codage de composantes sinusoïdales a pour but de coder les paramètres α έ,« > /&,« et Ψk,o sous for∞e condensée en introduisant une distorsion de quantification. Ces valeurs quantifiées sont ensuite représentées de
façon compacte par exemple à l'aide d'un codage dit sans pertes, c'est-à-dire réduisant le débit d'informations sans affecter le signal d'une erreur supplémentaire.
Dans la plupart des systèmes de codage/décodage, les composantes de phases (/>% $ ne sont pas transmises. Cette approche est basée sur le fait que l'oreille perçoit mal l'influence de la phase sur un signal musical. Ne sont alors codées que les trajectoires de la fréquence /^ n et de l'amplitude a^ n .
Classiquement, les valeurs de ces deux derniers paramètres sont quantifiées et transmises indépendamment les unes des autres, par le biais d'un quantificateur scalaire, par l'emploi d'une échelle logarithmique.
Une autre technique de codage, appelée codage SSC (pour « SinuSoidal Coding » en anglais) propose quant à elle un codage explicite des phases instantanées.
On rappelle qu'une composante sinusoïdale d'indice k est représentée, sur une trame d'analyse d'indice «par une fréquence fk n , une phase instantanée, φ^ n et une amplitude % „ , considérées comme constantes durant cette trame.
Cependant, ces trois paramètres évoluent au fil du signal, donc varient d'une trame à la suivante.
Pour plus de clarté, nous ne décrivons pas dans la suite du document les informations relatives à la transmission du paramètre d'amplitude % n , ce dernier n'entrant pas dans le cadre de la présente invention.
Ces évolutions temporelles de fréquence et de phase peuvent être respectivement représentées par des fonctions temporelles qu'on notera /^(t) et <Pk(i) . Le codage de ces éléments est détaillé en Annexe A. Dans le cadre de la transmission, le codage, le stockage de signaux audio, on constate donc que les techniques de l'art antérieur proposent de transmettre les composantes sinusoïdales soit en estimant et en codant de manière indépendante les phases et les fréquences analysées, soit de manière conjointe, en utilisant la phase déroulée. De plus, quelle que soit la technique utilisée, il est nécessaire de transmettre ces informations pour chacune des composantes.
De manière générale, ces techniques de l'art antérieur de codage de composantes sinusoïdales sont coûteuses en termes de débit, ou de mémoire de stockage. En effet, il est nécessaire d'envoyer au moins une information pour chaque trame d'analyse. De plus, cette opération est réitérée pour chacune des composantes sinusoïdales du signal sonore à transmettre, puisque celles-ci sont analysées et traitées indépendamment les unes des autres.
Ceci implique des étapes de quantification, codage, transmission ou stockage nombreuses et coûteuses. De telles techniques nuisent à l'efficacité de transmission ou de stockage. Enfin, les techniques de prédiction mises en œuvre sont efficaces uniquement lorsque la fréquence du partiel considéré est relativement stable dans le temps. Si cela n'est pas le cas, l'erreur de prédiction temporelle devient importante, augmentant de façon non négligeable la distorsion lors de la reconstruction du signal audio. 3. Objectifs de l'invention
L'invention a notamment pour objectif de pallier ces inconvénients de l'art antérieur.
Plus précisément, un objectif de la présente invention consiste à fournir une nouvelle technique de codage paramétrique des signaux , ainsi qu'une technique de décodage correspondante. Pour une même qualité de reconstruction, la solution proposée permet de réduire le débit de transmission.
Un autre objectif de la présente invention est de fournir une technique qui permette de réduire de façon importante l'espace mémoire nécessaire au stockage d'un signal harmonique codé. Notamment, un des objectifs de l'invention est de fournir une technique qui soit particulièrement adaptée à la transmission ou au stockage de signaux audionumériques, de parole ou de musique, et qui permette un codage efficace des composantes sinusoïdales d'un tel signal.
Un autre objectif de l'invention est de fournir une technique qui soit particulièrement efficace en termes de débit de transmission des composantes
sinusoïdales, tout en générant une distorsion de signal équivalente, voire inférieure, aux techniques classiques de l'art antérieur.
Un objectif supplémentaire de l'invention est de proposer une telle technique qui s'étende ou soit aisément adaptable à, la plupart des spécifications existantes dans les différents standards du domaine du codage des signaux multimédia, telles que la norme MPEG-4 notamment. 4. Exposé de l'invention
Ces différents objectifs, ainsi que d'autres qui apparaîtront par la suite, sont atteints à l'aide d'un procédé de codage d'un signal audio source, comprenant une étape de transformation d'un espace amplitude / temps vers un espace multi composantes décrites en amplitude, en phase et en temps, mettant en œuvre une modélisation sinusoïdale du signal audio et délivrant une pluralité de composantes sinusoïdales évoluant dans le temps. Selon l'invention, le procédé de codage comprend les étapes suivantes : - comparaison entre elles des composantes, de façon à définir au moins un groupe d'au moins deux composantes selon au moins un critère de similarité prédéterminé ; - codage, pour au moins un des groupes : d'au moins une donnée de référence du groupe, ladite donnée de référence étant représentée par une phase déroulée issue d'une première composante dudit groupe, dite composante de référence ; d'au moins une donnée de complément, associée à au moins une seconde composante du groupe, et permettant de reconstruire, en combinaison avec la donnée de référence, au moins une information représentative d'au moins une composante.
Ainsi, l'invention repose sur une approche nouvelle et inventive du codage d'un signal audio source exploitant les caractéristiques des composantes sinusoïdales qui le constituent. En effet, le procédé de l'invention regroupe et code les composantes sinusoïdales du signal présentant un degré de similitude. Ainsi, il est possible de reconstruire chacune des composantes d'un groupe à
partir de la connaissance de la composante de référence et de la donnée de complément correspondante. Une telle technique permet d'éviter de coder toutes les composantes indépendamment les unes des autres, et présente ainsi un gain très important en termes d'informations à quantifier, prédire, stocker ou encore transmettre.
Avantageusement, le critère de similarité tient compte d'une évolution de la phase d'au moins deux composantes. Une telle évolution de phase est aussi appelée phase déroulée.
Dans un mode de réalisation avantageux, l'étape de comparaison met en oeuvre un calcul de corrélation entre l'évolution de phase des deux composantes.
Le coefficient de corrélation permet en effet de refléter, selon sa valeur, un degré de ressemblance.
De façon avantageuse, l'étape de codage met en œuvre un codage différentiel selon un axe temporel comprenant : - une étape de prédiction de la donnée de référence et/ou de la donnée de complément, par rapport à au moins une valeur précédente correspondante ;
- une étape de détermination d'au moins un résidu à coder, par différence entre une donnée prédite et une donnée réelle. Avantageusement, le résidu est codé selon une période multiple de la période d'échantillonnage d'extraction des composantes, et en ce qu'une information représentative du multiple est générée.
Ce multiple est aussi appelé facteur de décimation. On gagne ainsi en termes de quantité d'informations à coder et quantifier. De façon avantageuse, l'étape de codage met en œuvre un codage différentiel selon un axe fréquentiel comprenant :
- une étape de codage d'au moins une donnée de référence, représentative d'une composante de référence dudit groupe ;
- une étape de codage d'au moins une donnée de complément, représentative d'une autre composante du groupe, par comparaison avec la donnée de référence.
Avantageusement, l'étape de codage met en œuvre, pour chaque composante d'indice k, les équations suivantes :
n est l'indice de temps ;
Φk n est la valeur, à un instant indicé n, de la phase de la composante d'indice A: ;
Φ^ „ est une donnée de prédiction, à un instant indicé n, de la phase de la composante d'indice k ;
Φjt M-i est une donnée quantifiée, à un instant indicé n-1, de la phase de la composante harmonique d'indice k ; - Φ/5M_i est une donnée quantifiée, à un instant indicé n-1, de la phase de la composante d'indice / ; a/ç et ai sont des valeurs proportionnelles aux fréquences de base des composantes k et /, choisies de façon à ce que le rapport de ces valeurs soit représentatif d'un rapport de fréquence entre la composante sinusoïdale d'indice k et la composante sinusoïdale d'indice /; dk n est une valeur de résidu, à un instant indicé », entre la valeur de phase et la donnée de prédiction de la composante d'indice k. L'invention concerne par ailleurs un produit programme d'ordinateur pour la mise en œuvre du procédé de codage tel que décrit précédemment. L'invention concerne encore un dispositif de codage d'un signal audio source, comprenant des moyens de mise en œuvre d'un tel procédé.
L'invention concerne également un signal codé représentatif d'un signal audio source, dont les composantes d'un tel signal sont regroupées en au moins un groupe d'au moins deux composantes selon au moins un critère de similarité, chacun des groupes comprenant :
- au moins une donnée de référence dudit groupe, ladite donnée de référence étant représentée par une phase déroulée issue d'une première composante dudit groupe, dite composante de référence ;
- au moins une donnée de complément, associée à au moins une seconde composante du groupe, et permettant de reconstruire, en combinaison avec ladite donnée de référence, au moins une information représentative d'au moins une composante.
Ce signal peut bien sûr comporter différentes informations produites par le procédé de codage décrit ci-dessus. L'invention concerne également un support de données comprenant au moins un tel signal codé.
L'invention concerne par ailleurs un procédé de décodage d'un tel signal codé. Ce procédé comprend les étapes suivantes :
- obtention de la ou les données de référence et de la ou les données de complément ; reconstruction de la ou les informations représentatives des composantes, à partir des données de référence et de complément.
Un tel procédé de décodage permet de décoder un signal codé selon le procédé de codage de l'invention tel que décrit précédemment. Avantageusement, un tel procédé de décodage comprend une étape de construction d'un signal audio reconstruit, représentatif du signal audio source, en tenant compte des informations représentatives des composantes.
Selon l'invention, un tel procédé de décodage comprend notamment : une étape de décodage d'au moins une donnée de référence, représentative d'une composante de référence du groupe ; une étape de décodage d'au moins une donnée de complément représentative d'une autre composante du groupe, par comparaison avec la donnée de référence ; une étape de reconstruction de l'autre composante par combinaison de la donnée de référence et de la donnée de complément.
Le procédé de décodage permet ainsi de reconstruire efficacement les composantes présentant un lien harmonique avec une composante de référence (mise en œuvre d'un décodage « inter »).
Avantageusement, la donnée de complément ayant été codée selon une période multiple d'une période d'échantillonnage, le procédé de décodage comprend une étape d'interpolation d'une donnée de complément estimée pour les instants pour lesquels une donnée de complément n' a pas été codée.
De façon avantageuse, l'étape de construction de l'évolution de phase met en oeuvre l'équation suivante : ΦM = Φk^m +(Φhn -Φ,,n-m )j- + Δp *q[index] où :
®k,n-m est 1^ donnée quantifiée, à un instant indicé n-m, de la phase reconstruite de la composante d'indice k ;
Φ/ n est une donnée quantifiée, à un instant indicé n, de la phase reconstruite de la composante d'indice /; Φ/ n_m est une donnée quantifiée, à un instant indicé n-m, de la phase reconstruite de la composante d'indice /; fjç est une valeur de la fréquence reconstruite correspondant à la composante d'indice k ; fl est une valeur de la fréquence reconstruite correspondant à la composante du groupe de référence ;
Δ^ est un pas de quantification ; q [index] est une valeur entière correspondant à une valeur quantifiée de correction.
De façon avantageuse, un tel procédé de décodage comprend : - une étape de prédiction selon un axe temporel de la donnée de référence par rapport à au moins une valeur précédente correspondante, délivrant au moins une donnée prédite ;
- une étape d'ajout à au moins une des données prédites d'un résidu correspondant transmis dans le signal de façon à obtenir une donnée réelle reconstruite.
Le procédé de décodage selon l'invention permet ainsi de reconstruire les données non transmises par prédiction (mise en œuvre d'un décodage « intra »).
Avantageusement, le résidu est codé selon une période multiple d'une période d'échantillonnage, et le procédé de décodage comprend une étape d'interpolation d'un résidu estimé pour les instants pour lesquels un résidu n a pas été codé. Plus précisément, le procédé de décodage peut mettre en œuvre l'équation suivante :
Φ*,» = 2 *%,«-« -Φjfc,«-2« + ΔP * q[index] où :
Ô>k,n-m est 1^ donnée quantifiée, à un instant indicé n-m, de la phase reconstruite de la composante d'indice k ; - Φyt,M-2m est une donnée quantifiée, à un instant indicé n-2m, de la phase reconstruite de ladite composante d'indice k ;
Δp est un pas de quantification d'une erreur de quantification ; q[index] est une valeur entière correspondant à une valeur quantifiée de correction. L'invention concerne aussi un produit programme d'ordinateur pour la mise en œuvre du procédé de décodage tel que décrit précédemment.
L'invention concerne enfin un dispositif de décodage d'un signal codé représentatif d'un signal audio source. Selon l'invention, le signal comprenant une représentation du signal source sous la forme d'une pluralité de composantes sinusoïdales décrites dans un espace de représentation en amplitude, en phase et en temps, les composantes étant regroupées en au moins un groupe d'au moins deux composantes selon au moins un critère de similarité, chacun des groupes comprenant :
- au moins une donnée de référence du groupe, ladite donnée de référence étant représentée par une phase déroulée issue d'une première composante dudit groupe, dite composante de référence ;
- au moins une donnée de complément, associée à au moins une seconde composantes du groupe, et permettant de reconstruire, en combinaison avec la donnée de référence, au moins une information représentative d'une composante, le dispositif comprend :
- des moyens d'obtention de la ou les données de référence et de la ou les données de complément ;
- des moyens de reconstruction de la ou les informations représentatives des composantes, à partir des données de référence et de complément.
Un tel dispositif peut notamment mettre en oeuvre le procédé de décodage tel que décrit précédemment, et comprend les moyens nécessaires pour ce faire. 5. Liste des figures
D'autres caractéristiques et avantages de l'invention apparaîtront plus clairement à la lecture de la description suivante d'un mode de réalisation préférentiel, donné à titre de simple exemple illustratif et non limitatif, et des dessins annexés, parmi lesquels : - la figure 1 illustre la prédiction linéaire décrite en Annexe A ; la figure 2 est un organigramme simplifié du procédé de codage selon l'invention ;
- la figure 3 est un graphique de l'évolution des phases et fréquences des composantes sinusoïdales d'un signal audio source ; - la figure 4 est un organigramme du procédé de décodage selon l'invention;
- les figures 5A et 5B illustrent schématiquement un dispositif de codage et un dispositif de décodage mettant en œuvre l'invention.
6. Description d'un mode de réalisation de l'invention 6.1 Principe général
L'invention propose donc une approche tout à fait nouvelle et efficace de codage d'un signal harmonique, permettant d'améliorer sa transmission ou son stockage, en réduisant le débit nécessaire pour la transmission ou l'espace mémoire pour le stockage, tout en assurant un signal reconstruit de haute qualité, et ce même si les variations de fréquence au cours du temps sont importantes.
L'invention exploite pour cela de façon nouvelle et efficace le fait que les composantes sinusoïdales d'un signal sont étroitement liées.
En effet, considérant un signal harmonique ou quasi-harmonique, on définit de façon connue la relation suivante entre une composante harmonique de référence (appelée souvent fondamentale), de fréquence notée f§ n à la trame d'indice n , et une composante harmonique, du même signal, qu'on appelle composante de complément, d'indice k , à la fréquence notée fe n :
β représente un facteur d'inharmonicité proche de zéro et pouvant être négligé pour les sons vocaux par exemple. A titre d'exemple, il vaut 0,0004 pour le piano.
On note a^ alors le rapport entre la fréquence /^ n de la composante d'indice k et la fréquence fo n de la composante de référence d'indice 0, soit :
En d'autres termes, à chaque composante d'indice k correspond un facteur a^ , reflétant une relation d'harmonicité avec la composante de référence.
Une autre caractéristique importante de l'invention consiste à transmettre certaines informations, notamment les informations de complément obtenues par codage différentiel, avec un rafraîchissement temporel plus espacé. Une telle technique permet ainsi de réduire encore plus le débit nécessaire, sans affecter la qualité du signal reconstruit, pour les composantes fréquentielles les plus stables en particulier.
En relation avec la figure 2, le synoptique d'un système d'analyse pour la transmission et le codage d'un signal audio tel que proposé par l'invention comprend, de manière générale, trois étapes principales.
Un signal x(t) sonore est traité dans une étape 21 d'analyse sinusoïdale, qui consiste à décomposer le signal audio x(t) en entités sinusoïdales et à en extraire ainsi, pour chaque composante d'indice k , les informations d'amplitude ak n , de phase φk n et enfin de fréquence fk,n , à chaque trame d'indice n . On obtient un signal x(t) approché de x(t) de la forme : κ-ι x(t) ≈ ]T ak n cos(Φ£)W(t))> telle que déjà décrite en préambule. *=0 II s'ensuit l'étape 22 d'appariement des entités harmoniques, ou entités sinusoïdales, qui consiste à les regrouper par familles harmoniques : il s'agit ici d'effectuer un travail de classification dans lequel les composantes sinusoïdales ayant une relation harmonique entre elles sont identifiées.
Cette étape 22 d'appariement peut être réalisée en comparant notamment les phases déroulées de chaque composante. Une telle étape permet de définir, pour une composante sinusoïdale d'indice k, une composante sinusoïdale de référence dont la phase déroulée est notée Φn ainsi qu'une donnée de complément, ak, représentant la relation existant entre cette dernière composante et la composante de référence. Ainsi, il sera possible de reconstruire la composante d'indice k simplement à partir des informations transmises sur la composante de référence (comme sa phase déroulée Φn) ainsi que de cette donnée ak de complément.
La donnée de complément ak , la phase déroulée Φn de la composante de référence ainsi que les informations de phase, d'amplitude et de fréquence de la composante d'indice k sont ensuite quantifiées et codées dans une étape 23. Les données quantifiées représentant le signal x(t) sont alors transmises (24). De telles données quantifiées sont notamment les âk et des valeurs quantifiées de fréquence de base (notée index_fl)), ainsi que de la phase initiale de la référence de base, notée q[0], et aussi des paramètres représentatifs de l'erreur de prédiction
lors du codage, notés q[l], q[index]. Ces derniers paramètres quantifiés représentatifs du signal audio source encodé sont des valeurs entières qui sont multipliées par un pas de quantification correspondant lors de la reconstruction du signal. Ils sont explicités plus en détail dans la suite de la présente description. C'est à partir de ces données que l'harmonique d'indice k pourra être reconstruit par un décodeur, sans perte de qualité.
On développe maintenant plus en détail les étapes 22 et 23 d'appariement des entités harmoniques et de quantification et de codage.
6.2 Appartement des entités harmoniques (étape 22) L'étape 21 d'analyse sinusoïdale présentée en relation avec la figure 2 permet donc d'obtenir une représentation, pour chacune des composantes sinusoïdales du signal, de l'évolution de leur phase et de leur fréquence. On parle alors de phase déroulée. Elles sont illustrées par la figure 3. L'axe des abscisses représente le temps en termes de trames d'indice n , et l'axe des ordonnées représente la phase déroulée, en radians.
L'idée ici est d'exploiter cette connaissance des phases déroulées pour identifier des groupes de ressemblance entre un certain nombre d'harmoniques.
On voit notamment sur la figure 3 qu'il est possible de déterminer trois groupes, ou entités, 31, 32, 33. On note que les entités 31 et 32 comprennent chacune un groupe de composantes, représentées par leur phase déroulée, alors que l'entité 33 ne contient d'une seule composante sinusoïdale.
Pour réaliser l'étape d'appariement, on peut par exemple calculer les coefficients de corrélation pk i entre deux composantes harmoniques d'indices respectifs k et / de phase déroulée différentiées selon la formule : n=N-l
dk n = ®k n ~ φ /fc n-i > c'est-à-dire la phase déroulée différentiée entre la trame d'indice n et la trame d'indice n - 1 pour la composante d'indice k ;
- N est le nombre d'instants temporels communs aux composantes k et /.
Un exemple de résultats des calculs de corrélation est exposé dans le tableau suivant :
La similarité entre composantes est donc mesurée par le calcul du coefficient de corrélation. On considère que deux composantes d'indices respectifs k et / appartiennent à la même entité lorsque la valeur du coefficient de corrélation est supérieure à un seuil, par exemple à une valeur τ = 0, 95 .
En relation avec la figure 3 et le tableau précédent, on voit alors que les composantes ayant les phases déroulées indicées 311, 312, 313, 314, 315 et 316 appartiennent à la même entité 31 ,
De même les composantes ayant les phases déroulées indicées 321, 322 et 323 appartiennent à une même seconde entité 32. Enfin, la composante de phase
déroulée 331 ne présente de similitude avec aucune autre composante, puisque le coefficient de corrélation de cette composante avec toute autre composante est faible. Elle représente alors à elle seule une troisième entité 33.
Les entités disposant d'une relation harmonique, à savoir les entités 31 et 32 sont ainsi rassemblées et chacun des partiels est affecté d'un facteur a ^, ou données de complément, dénotant son rapport harmonique avec une composante de référence, dont la phase déroulée est notée Φn , et représentant alors la trajectoire commune à l'entité considérée.
On exprime alors la phase déroulée à la trame d'indice n de la composante harmonique d'indice k en fonction de la phase déroulée de la composante de référence par la formule suivante : φk,n = oek - Φn + Φw + bKn avec : bk n représente un bruit aléatoire expliquant l'erreur de mesure effectuée sur les fréquences et les phases, ainsi que l'inadéquation de ces mesures vis-à-vis du modèle harmonique ; ajç est le facteur précédemment introduit par la relation :
Φjc o est une correction de phase initiale.
On constate alors au vu de cette formule qu'il est possible d'obtenir la valeur d'une phase déroulée d'une composante d'indice k à la trame d'indice n à partir de la phase déroulée d'une composante de référence.
Dans un mode de réalisation particulier, il est possible de calculer les valeurs de Φn et de û^par itération jusqu'à la convergence des deux équations suivantes :
k=K~\
Σ akφk,n
Ces deux relations peuvent être considérées par morceaux : si par exemple, les composantes 311 et 312 de la figure 3 ne couvrent qu'un intervalle commun N1 < N , alors la formule permettant de calculer Φn ne sera appliquée que sur les portions communes au deux composantes, et la formule permettant de calculer a^ n'intégrera pas les indices non représentés (N étant le nombre d'instants temporels communs défini précédemment).
On note que selon le mode de réalisation choisi, il est possible de choisir pour valeur initiale de Φn l'une des phases déroulées des composantes d'indice k , ou également choisir : Φn = 1 Vn e [0, N - 1].
De plus, dans un autre mode de réalisation, la puissance de bk n , notée σ^ , peut également servir à l'appariement : les composantes sinusoïdales répondant correctement à l'équation précédente seront en effet entachées d'une variance σ^ faible. Dans un mode de réalisation supplémentaire, cet appariement peut également se faire à l'aide d'un critère de maximum de vraisemblance, en maximisant la probabilité de Φ^ n connaissant le modèle décrit par Φn et les a % .
Ces mesures a posteriori peuvent donc confirmer l'appariement réalisé selon le principe de la corrélation présenté.
En d'autres termes, et dans un premier mode de réalisation, chaque composante d'indice k, de phase déroulée notée Φk n sera parfaitement décrite par la transmission (ou le stockage) d'une phase déroulée Φ/ „ d'une composante de référence d'indice / choisie parmi l'ensemble K des composantes du signal, des facteurs a \ ainsi que des paramètres D^ n , avec l'indice k ayant une valeur différente de celle de l'indice / . Dans un second mode de réalisation, on transmet pour chaque phase déroulée de référence une valeur Φn , de référence commune à toutes les
composantes du signal à transmettre, puis pour chaque composante, les facteurs ccfr et les paramètres b^ , avec O ≤ k ≤ K - l .
6.3 Quantification et codage (étape 23)
La connaissance des évolutions des fréquences et des phases de chaque composante sinusoïdale, ainsi que des relations de similarité entre chacune d'entre elles, est ici exploitée pour un codage optimal.
Suite à l'étape d'appariement, les entités sinusoïdales sont regroupées en deux familles. Une première famille comprenant des liens d'harmonicité et une seconde famille de composantes indépendantes entre elles (du type de l'entité 33 présentée en relation avec la figure 3).
Dans le cadre de la transmission d'entité appartenant à la première famille, il est alors nécessaire de transmettre, pour une composante d'indice k , le signal de référence dont l'évolution de phase et fréquence est notée Φn , ou bien Φ/ n , selon le mode de réalisation choisi, l'erreur d'estimation b^ n ainsi que le facteur CC^, reflétant l'harmonicité de la composante d'indice k avec la composante de référence. L'erreur d'estimation ^ n est une valeur de résidu qui permet de compenser l'erreur de prédiction lors de la reconstruction du signal.
Selon le paramètre à coder et la famille à laquelle l'entité considérée appartient, on considère deux types de codages, présentés ci-après, appelés respectivement codage Intra et codage Inter.
6.3.1 Le codage Intra
Dans le mode de quantification Intra composante, il s'agit de quantifier une évolution de phase et de fréquence, ou phase déroulée, relativement à elle-même, sans référence à aucune autre composante. Cette description est basée sur une technique de prédiction linéaire, connue en soi. En d'autres termes, on prédit la valeur de la phase déroulée à un instant, à partir de sa valeur aux instants précédents. Selon un mode de réalisation préférentiel de l'invention, cette technique de prédiction est étendue en utilisant des décimations temporelles, de façon à réduire le débit nécessaire à la transmission des informations.
Par exemple, la prédiction linéaire de la phase déroulée de la composante d'indice k à l'instant n + 2m , notée Φn+2m » est calculée de la façon suivante : avec
- Φk,n+m est *a valeur quantifiée de Φk,n+m > - m est un facteur de décimation temporelle représentant une période multi riode 'échantillonna e
Si la durée du signal n'est pas exactement un multiple de m , alors les extrémités seront extrapolées sous forme linéaire en utilisant les dernières valeurs reçues par le décodeur.
On obtient alors une valeur de résidu, notée ε^ n , qui sera effectivement transmise (ou stockée), sous forme uantifiée et codée aux instants n = l - m , multiples de m valant '. e signal est représentatif d'un écart
entre la valeur réelle et la valeur prédite de l'évolution en fréquence et en phase. Une telle méthode est particulièrement efficace pour transmettre des composantes dont la fréquence varie peu au cours du temps. Il faut en effet s'assurer que l'erreur de reconstruction augmentée par cette décimation temporelle assure par ailleurs une réduction importante du débit de transmission. La réduction de débit sera d'autant plus importante que Φ^ „ décrit une droite par morceaux.
Les éléments ou entités codées et quantifiées selon ce type de codage Intra sont alors les suivantes : le facteur de décimation m ;
- le jeu de signaux εk n , valeurs quantifiées de ε^n aux instants multiples de m; la quantification sera par exemple réalisée par un quantificateur scalaire (uniforme ou non) ou vectoriel. Cette quantification peut être suivie d'un codeur entropique de type
Huffman ou arithmétique.
- les valeurs initiales quantifiées nécessaires au prédicteur <% 0 et Φk,m - P°ur ce fau"e> on Peut transmettre une fréquence initiale
fk 0 permettant de retrouver l'évolution Φk m par la relation :
Ces valeurs peuvent être quantifiées par un quantificateur scalaire (uniforme ou non) et éventuellement également codées par un code de longueur variable. Des valeurs convenables pour m couvrent la plage 1 < m ≤ 16.
En d'autres termes, on met en œuvre ici un codage différentiel selon un axe temporel.
6.3.2 Le codage Inter
II s'agit maintenant de coder conjointement une composante sinusoïdale relativement à une autre, en utilisant leur relation d'harmonicité, ou de similarité. On exprime l'évolution de phase et de fréquence Φk n d'une composante d'indice k à un instant de trame d'indice n par rapport à une composante dont l'évolution est notée Φ[ n , d'indice /, qui lui est harmoniquement liée. Afin d'obtenir un fonctionnement identique aussi bien au niveau du codeur que du décodeur, les Φ^ „ seront exprimées par rapport à une version quantifiée de Φ^n notée Φl n .
On appelle ce type de codage le codage Inter.
Grâce à la relation d'harmonicité, une valeur prédite de Φk>n , notée
Φβ. „ est obtenue selon la relation suivante :
Φ^ = ΦM-i +^(Φ/,Λ -Φ/,«-i) -
On voit au travers de cette formule que la valeur à un instant n de la phase déroulée d'une composante codée par codage Inter est obtenue d'une part à partir de sa valeur prédite à un instant précédent n - 1 ( Φ^ M_j ), et d'autre part à partir de la valeur prédite de la phase déroulée d'une composante de référence d'indice / aux instants n et n - \ (Φ^n et Φ/ Λ_i ).
C'est alors l' erreur de prédiction dk n qui sera transmise sous forme quantifiée : dk n = Φk n - Φk n . En effet, la connaissance de cette erreur par le décodeur, ou le dispositif de restitution, est utile pour corriger l'erreur de prédiction générée à l'encodage, et assurer ainsi une bonne qualité du signal audio reconstruit.
Grâce à cette erreur de prédiction, il sera possible de reconstruire avec précision l'harmonique d'indice k, à l'aide de la composante de référence d'indice I .
Plus précisément, le signal dk n est l'erreur de prédiction de l'harmonique d'indice k par rapport à l'harmonique de référence d'indice / , cumulée à l'erreur de quantification réalisée sur Φi n . Si Φ[ n est quantifiée suffisamment précisément, alors dk n ne représente que l'erreur de prédiction entre harmonique.
Dans un mode de réalisation préférentiel, ce type de codage Inter peut lui aussi reposer sur une version décimée de Φ/)W . De même, les signaux J^ n peuvent être eux aussi transmis sous forme décimée. On pourra alors exprimer la prédiction de Φ^ „ sous la forme :
Dans ce cas, dk n ne sera transmis que pour les indices n multiples de m .
En résumé, les éléments transmis dans le cas du codage Inter sont donc les suivants : une composante de base (transmise en mode Intra selon le mode de réalisation préférentiel) ;
- les valeurs des données de complément, ou facteur, ak, transmis soit sous forme directe, soit sous forme d'une fréquence fk qui permet de retrouver α^ ≈ ^par rapport à la composante de
// référence d'indice / ;
- les erreurs de prédiction dk n quantifiées sous forme décimée ou non ;
- les phases déroulées initiales Φ^ o quantifiées par un quantificateur scalaire (uniforme ou non) et éventuellement codées par un code de longueur variable (arithmétique, ou Huffman par exemple).
L'invention s'étend également à la transmission d'un signal en Intra, commun Φn assorti de ak et φk>0 , mais sans transmission des dk n ,Φn pouvant
représenter une composante à restituer (c'est-à-dire un Φnj), ou non> selon le mode de réalisation choisi.
En conclusion, les inventeurs ont constaté que les performances de ces types de codages mettant en œuvre la décimation sont avantageuses. Par exemple, la caractéristique de débit en fonction de la distorsion d'un codage Intra avec décimation d'un facteur deux permet d'économiser un débit substantiel par rapport à une transmission de type Intra sans décimation, d'environ 30%.
En termes de performances, si la fréquence de la phase déroulée Φ/ „ de la composante de référence varie rapidement au cours du temps, alors le coût de la transmission, en codage Intra, sera élevé car le modèle prédictif temporel sera mal respecté. En revanche, lorsqu'on appuiera la quantification des phases déroulées Φ^ n des composantes liées sur ce signal, alors les effets des variations temporelles auront disparu : le codage en mode Inter sera donc particulièrement adapté aux composantes harmoniques de forte variation temporelle. 6.4 Procédé de décodage
L'invention concerne par ailleurs le procédé de décodage d'un signal codé et quantifié tel que décrit précédemment. Là aussi, selon le type de codage réalisé (mode Intra ou Inter), on envisage deux types de décodage.
La figure 4 représente un synoptique général du procédé de décodage selon l'invention. Un train binaire contenant les données quantifiées (q[0], q[l], q[index], index fO, α...) représentatives d'une trame d'indice n du signal audio source quantifié est tout d'abord décodée dans une étape 41 de décodage syntaxique. H est possible de se référer à l'annexe B de la présente description pour une des informations détaillées sur cette étape 41. II s'en suit une étape de test 42 sur le type de codage par lequel a été codée la trame reçue : « mode = =inter ? ». Si la réponse à ce test est oui, une étape 431 de décodage en mode Inter est mise en œuvre. Sinon, la trame est décodée en mode Intra dans une étape 432.
On obtient alors en sortie de chacune de ces étapes 431 ou 432 de décodage les informations recherchées de phase φk>n , de fréquence fk≠ et d'amplitude a^ n .
Ces informations sont ensuite exploitées dans une étape 44 de synthèse sinusoïdale, dans laquelle est reconstruite la composante sinusoïdale considérée.
Enfin, un test 45 est réalisé pour déterminer si la composante traitée est la dernière ou non : « Dernière composante ? ». Sinon, les étapes 41, 42, 431, 432, 44 et 45 sont réitérées. Si oui, une étape 46 finale d'addition d'un résiduel est réalisée avant la restitution du signal par un haut-parleur 47. On décrit maintenant plus en détail chacune de ces étapes.
6.4.1 Mode Intra (étape 432)
On définit Δy , Ap comme étant les pas de quantification respectifs pour la fréquence initiale et l'erreur de prédiction sur la phase ( Δ^ peut être différent pour la première valeur de phase et ses suivantes, comme il peut être rendu adaptatif par l'utilisation d'un quantificateur au pas de quantification adaptatif).
Des valeurs convenables sont de l'ordre de — .
32
On note index_fθ l'indice fréquentiel de la composante codée en mode
Inter servant de référence. Cet index est un entier, qui permet de reconstruire la valeur réelle de la fréquence de base fa de la composante d'indice k en multipliant cet index par le pas de quantification de la fréquence Δy . On obtient la valeur reconstruite de fa : fa . Dans un second mode de réalisation, index_fθ peut être utilisé pour pointer directement dans une table permettant d'obtenir les valeurs fa reconstruites de fa .
De façon similaire q[0], q[l] et q[index] sont des entiers correspondant à une valeur quantifiée de la phase de la composante d'indice k et par lesquels on obtient une valeur reconstruite en les multipliant par le pas de quantification Ap appliqué aux phases. De façon plus détaillée, q[0] correspond à la valeur quantifiée de la phase initiale d'une composante, q[l] correspond à la valeur quantifiée de la correction à appliquer à la phase d'une composante aux instant
multiples de m et q[index] correspond à la valeur quantifiée de la correction à appliquer à la phase aux instants indicés n (entre les instants multiples de m).
La reconstruction d'une composante en mode Intra se fait de la façon suivante: - construction de la fréquence de base de la composante k à partir du pas de quantification de cette valeur et de sa valeur quantifiée: fa ≈ Aj- * index_fθ ;
- construction de la phase initiale de la composante k à partir du pas de quantification de cette valeur et de sa valeur quantifiée: Φk 0 = Ap * q[0] ;
- construction de la phase à l'instant m de la composante k à partir de la phase initiale de cette composante, de sa fréquence de base, de l'instant considéré pondéré et d'une valeur quantifiée pondérée par un pas de quantification : Φk ^n = Φ^Q + m • a • fa + Δ „ * q[l] ; - construction de la phase à chaque instant multiple du facteur de décimation par extrapolation des deux instants précédents décimés et d'une correction quantifiée multipliée par un pas de quantification : Φk n = 2 -ΦKn_m ~ΦKn_2m +Ap *q[index] ;
Les valeurs intermédiaires entre les indices n - m et n sont reconstruites à l'aide de l'équation précédemment introduite :
Si n n'est pas un multiple de m , alors les dernières valeurs sont extrapolées de façon linéaire : Φ^n+m = %,« + (m ~ n)ω » avec ω étant proportionnel à la dérivée de Φk n .
6.4.2 Mode Inter (étape 431)
On décrit maintenant le décodage d'une composante sinusoïdale d'indice k , codée en mode Inter par rapport à une composante d'indice / déjà quantifiée en Inter (ou éventuellement en Intra).
La reconstruction d'une composante en mode Inter se fait de la façon suivante:
- construction de la fréquence de base de la composante d'indice k à partir du pas de quantification de cette valeur et de sa valeur quantifiée : fa = Δy * index fO ;
- construction de la phase initiale de la composante k à partir du pas de quantification de cette valeur et de sa valeur quantifiée: Φ*,o = Δ^ *q[O] ;
- construction de la phase à l'instant d'indice n de la composante k à partir de la phase au temps n - m de cette composante, de sa fréquence de base et de celle de référence / , des phases reconstituées de la composante de référence et d'une correction quantifiée multipliée par un pas de quantification :
Les valeurs intermédiaires entre les indices n - m et n sont reconstruites à l'aide de l'équation précédemment introduite : φ k,n+l = -[(m-l)Φk,n +l-Φk,n + m] .
Si n n'est pas un multiple de m , alors les dernières valeurs sont extrapolées de façon linéaire : Φ£>Λ+m = φk,n +(m- ή)ω , avec ω étant proportionnel à la dérivée de Φk n .
6.5 Reconstruction
En utilisant les phases déroulées reconstruites Φ^ , on retrouve les fréquences et phases instantanées à partir des équations précédemment introduites Ψk,n = Ct(71T) = moά(Φ /çit = nT),2π) et au choix une des fonctions Jn+1 = Jn — - — '— ou Jn+1 = — '- 2- également introduite en
2 • ai ai préambule de la présente description.
Les fréquences instantanées et phases instantanées ainsi déterminées alimentent ensuite des synthétiseurs sinusoïdaux (étape 44) commandés par ces valeurs.
L'ensemble des composantes sinusoïdales est ensuite sommé pour retrouver la partie déterministe du signal audio.
Cette partie déterministe est ensuite optionnellement complétée par un signal résiduel (étape 46), sous la forme d'un bruit de confort ou par un signal codé par un codeur par transformée de type AAC.
Le signal complet ainsi reconstruit alimente ensuite un convertisseur numérique analogique qui permet de restituer le son (étape 47). 6.6. Dispositifs de mise en œuyre
Le procédé de l'invention peut être mis en œuvre un dispositif de codage, dont la structure est présentée en relation avec la figure 5 A.
Un tel dispositif comprend une mémoire M 500, une unité de traitement 501, équipée par exemple d'un microprocesseur, et pilotée par le programme d'ordinateur Pg 502. A l'initialisation, les instructions de code du programme d'ordinateur 502 sont par exemple chargées dans une mémoire RAM avant d'être exécutées par le processeur de l'unité de traitement 501. L'unité de traitement 501 reçoit en entrée un signal audio source à coder 503. Le microprocesseur μP de l'unité de traitement 501 met en œuvre le procédé de codage décrit ci-dessus, selon les instructions du programme Pg 502. L'unité de traitement 501 délivre en sortie des données quantifiées représentatives du signal audio source codé 504.
L'invention concerne également un dispositif de décodage d'un signal codé représentatif d'un signal audio source selon l'invention, dont la structure générale simplifiée est illustrée schématiquement par la figure 5B. Il comprend une mémoire M 510, une unité de traitement 511, équipée par exemple d'un microprocesseur, et pilotée par le programme d'ordinateur Pg 512. A l'initialisation, les instructions de code du programme d'ordinateur 512 sont par exemple chargées dans une mémoire RAM avant d'être exécutées par le processeur de l'unité de traitement 511. L'unité de traitement 511 reçoit en entrée
75
un signal codé représentatif d'un signal audio source 513. Le microprocesseur μP de l'unité de traitement 511 met en œuvre le procédé de décodage selon les instructions du programme Pg 112, pour délivrer un signal audio reconstruit 512.
ANNEXE A La relation entre fk,n et la fréquence instantanée fk(t) est : fk,n = fk(nT) .
De même, le lien entre la phase ^n et la phase instantanée φk(t) est : φk n = φk(nT) . De façon à modéliser l'évolution temporelle au fil du signal des paramètres de fréquence et de phase, il a été introduit la notion de phase déroulée Φk(t), portant à la fois pour chacune des composantes sinusoïdales du signal à modéliser, la fréquence instantanée fk(t) et la phase instantanée ψkit). La phase déroulée Φ^(0 permet donc de représenter à la fois l'évolution de la phase instantanée et de la fréquence instantanée d'un partiel sous la forme d'une unique fonction temporelle continue, puis échantillonnée. En d'autres termes, on modélise l'évolution de la phase Φ^. n(t) initialement introduite, sur toute la longueur du signal.
Dans le cas idéal, lorsque l'estimateur chargé de décomposer le signal audio en partiels est parfait, on met en rapport les fréquences fk,n et les phases instantanées φk n par les deux relations suivantes :
φic n = φ]((nT) = moά(Φk(t = nT),2π) , avec mod(α,Z>) représentant la fonction modulo, c'est-à-dire le reste de la division entière de a par b. Plus spécifiquement, il existe une relation entre la valeur de la phase déroulée à la trame n + 1 et la valeur à la trame n , ce qui permet alors d'estimer la phase déroulée Φk{t) par prédiction.
En effet, d'une trame d'indice « à la trame suivante d'indice n + l , la phase déroulée s'exprime par :
Φ*,«+i = Φ/fc,» + ≈ J fk(t)dt avec a = -— . nT e
On note par la suite Δφ]t M+1 la variation de la phase déroulée d'une trame
(«+1)7 à la suivante, soit : àφk n+ι = J fk(t) • dt . nT
Dans le cas où la fréquence est considérée comme constante au cours du temps, la quantité Δφjt n+1 est constante au cours du temps, et la fonction
Φjt(Oest une droite.
Dans le cas où la fréquence fk{t) varie peu entre les instants nT et (n + T)T , alors la variation de la phase déroulée est considérée comme constante, c'est-à-dire que : àΦk n+2 ≈ Δφk n+i et on Prédit alors φk,n+2 P^ la relation suivante
L'erreur d'estimation, ou de prédiction est
L'écart Δφk n+ι de phase déroulée entre deux instants est aussi appelé déroulement de phase.
La fi de la phase déroulée du partiel d'indice k , aux instants . L'axe des abscisses présente le temps et
l'axe des ordonnées la valeur de la phase déroulée Φk{t) .
On constate que l'erreur de prédiction εk>n+2 est faible devant le déroulement de phase Δφ£ M+2.
Toujours dans le cas où la fréquence d'un partiel varie peu dans le temps, une seconde variante possible pour prédire la phase déroulée, c'est-à-dire pour déduire la valeur de la phase à un instant à artir de sa valeur à un instant précédent, est d'utiliser la relation suivante :
Se basant sur le principe de base du codage stipulant qu'un signal de faible énergie est beaucoup moins coûteux à transmettre qu'un signal de forte énergie, la technique classique consiste alors à transmettre ou à stocker l'ensemble des éléments εk^n . Etant petits devant les éléments àφk n , ils seront moins coûteux à en termes de débit ou de mémoire. Ayant transmis la phase déroulée initiale Φ la hase à la trame suivante Φ^j ainsi que la suite d'éléments il est possible de
reconstruire, à la précision voulue, les phases et les fréquences initialement déterminées suivant les relations suivantes :
fn+ι - fn ^^ ~ ' avec l'hypothèse que la conservation
de la fréquence qui entraîne 1 approximation suivante : fn+1 = — 2 .
ANNEXE B
Syntaxe de transmission des phases déroulées
Un exemple de syntaxe de transmission des modes Inter et Intra est présenté dans ce paragraphe. La table suivante décrit la syntaxe de la fonction « read_sinus » de lecture des composantes sinusoïdales,
uimsbf signifie « unsigned integer most significant bit first » en anglais (pour : bit de poids le plus fort de l'entier non signé en premier).
Le mode Intra/Inter est lu, permettant de savoir sous quelle forme la composante sinusoïdale est lue. Suivant le mode lu, la syntaxe est décodée, puis les phases déroulées sont reconstruites suivant le mode. L'index de la composante
Intra servant de référence à la composante Inter suivante est constamment mis à jour.
La table suivante décrit la syntaxe de la fonction « intra sinus » de détection du mode de codage Intra,
vlclbf signifie « variable length code, least bit first » en anglais (pour : code de longueur variable, bit de poids le plus faible en premier).
HuffÇ) est une fonction permettant retrouver un index stocké sous forme d'un code à longueur variable.
L'index de décimation est lu, suivi d'une valeur de fréquence. Ensuite la phase initiale est lue suivie des erreurs de prédiction qui serviront à reconstruire les phases déroulées.
La table suivante décrit la syntaxe de la fonction « inter_sinus » de détection du mode de codage Inter.
L'index de décimation est lu, suivi d'une valeur de fréquence. Ensuite la phase initiale est lue suivie des erreurs de prédiction qui serviront à reconstruire les phases déroulées.
Une autre alternative consiste à ne pas transmettre les index_fθ pour les composantes codées en mode Inter. Le rapport α^ devenant implicite et croissant : une composante codée en Inter après une composante en Intra aura une valeur par défaut ak = 2 ce qui équivaudrait à ≈M- = 2 , ak étant augmenté de 1 à chaque
// réception de composante Inter, jusqu'à ce qu'on rencontre une nouvelle composante codée en Intra.
Claims
1. Procédé de codage d'un signal audio source, comprenant une étape de transformation d'un espace amplitude / temps vers un espace multi-composantes décrites en amplitude, en phase et en temps, mettant en œuvre une modélisation sinusoïdale du signal audio et délivrant une pluralité de composantes sinusoïdales évoluant dans le temps, caractérisé en ce qu'il comprend les étapes suivantes :
- comparaison entre elles desdites composantes, de façon à définir au moins un groupe d'au moins deux composantes selon au moins un critère de similarité prédéterminé ;
- codage, pour au moins un desdits groupes : d'au moins une donnée de référence dudit groupe, ladite donnée de référence étant représentée par une phase déroulée issue d'une première composante dudit groupe, dite composante de référence ; d'au moins une donnée de complément, associée à au moins une seconde composante dudit groupe, et permettant de reconstruire, en combinaison avec ladite donnée de référence, au moins une information représentative d'au moins une composante.
2. Procédé de codage selon la revendication 1, caractérisé en ce que ledit critère de similarité tient compte d'une évolution de la phase d'au moins deux composantes.
3. Procédé de codage selon la revendication 2, caractérisé en ce que ladite étape de comparaison met en oeuvre un calcul de corrélation entre ladite évolution de phase desdites au moins deux composantes.
4. Procédé de codage selon l'une quelconque des revendications 1 à 3, caractérisé en ce que ladite étape de codage met en œuvre un codage différentiel selon un axe temporel comprenant : - une étape de prédiction de ladite donnée de référence et/ou de ladite donnée de complément, par rapport à au moins une valeur précédente correspondante, délivrant au moins une donnée prédite ;
- une étape de détermination d'au moins un résidu à coder, par différence entre d'une desdites données prédites et d'une donnée réelle correspondante.
5. Procédé de codage selon la revendication 4, caractérisé en ce que ledit résidu est codé selon une période multiple d'une période d'échantillonnage, et en ce qu'une information représentative dudit multiple est générée.
6. Procédé de codage selon l'une quelconque des revendications 1 à 5, caractérisé en ce que ladite étape de codage met en œuvre un codage différentiel selon un axe fréquentiel comprenant : une étape de codage d'au moins une donnée de référence, représentative d'une composante de référence dudit groupe ; - une étape de codage d'au moins une donnée de complément, représentative d'une autre composante dudit groupe, par comparaison avec ladite donnée de référence.
7. Procédé de codage selon la revendication 6, caractérisé en ce que ladite étape de codage met en œuvre, pour chaque composante d'indice k les équations suivantes :
4,« = %,« - %,« > où n est l'indice de temps ;
Φk r, est la valeur, à un instant indicé n, de la phase de la composante d'indice k,
®k,n est une donnée de prédiction, à un instant indicé n, de la phase de la composante d'indice k ;
Φk,n-ι est une donnée quantifiée, à un instant indicé n-1, de la phase de ladite composante harmonique ; φj n_λ est une donnée quantifiée, à un instant indicé n-1, de la phase de la composante d'indice / ; ak et ai sont des valeurs proportionnelles aux fréquences de base des composantes h et /, choisies de façon à ce que le rapport de ces valeurs soit représentatif d'un rapport de fréquence entre la composante sinusoïdale d'indice k et la composante sinusoïdale d'indice /; dk n est une valeur de résidu, à un instant indicé n, entre ladite valeur de phase et ladite donnée de prédiction de la composante d'indice k.
8. Produit programme d'ordinateur téléchargeable depuis un réseau de communication et/ou stocké sur un support lisible par ordinateur et/ou exécutable par un microprocesseur, caractérisé en ce qu'il comprend des instructions de code de programme pour la mise en œuvre du procédé de codage selon au moins une des revendications 1 à 7.
9. Dispositif de codage d'un signal audio source, comprenant des moyens de transformation d'un espace amplitude / temps vers un espace multi-composantes décrites en amplitude, en phase et en temps, mettant en œuvre une modélisation sinusoïdale du signal audio et délivrant une pluralité de composantes sinusoïdales évoluant dans le temps, caractérisé en ce qu'il comprend : - des moyens de comparaison desdites composantes entre elles, de façon à définir au moins un groupe d'au moins deux composantes selon au moins un critère de similarité ; des moyens de codage, pour au moins un desdits groupes : - d'au moins une donnée de référence dudit groupe, ladite donnée de référence étant représentée par une phase déroulée issue d'une première composante dudit groupe, dite composante de référence ; d'au moins une donnée de complément, associée à au moins une seconde composante dudit groupe, et permettant de reconstruire, en combinaison avec ladite donnée de référence, au moins une information représentative d'au moins une composante.
10. Signal codé représentatif d'un signal audio source, comprenant une représentation du signal source sous la forme d'une pluralité de composantes sinusoïdales décrites dans un espace de représentation en amplitude, en phase et en temps, caractérisé en ce que lesdites composantes sont regroupées en au moins un groupe d'au moins deux composantes selon au moins un critère de similarité, et en ce qu'au moins un desdits groupes comprend :
- au moins une donnée de référence dudit groupe, ladite donnée de référence étant représentée par une phase déroulée issue d'une première composante dudit groupe, dite composante de référence ; au moins une donnée de complément, associée à au moins une seconde composante dudit groupe, et permettant de reconstruire, en combinaison avec ladite donnée de référence, au moins une information représentative d'au moins une composante.
11. Support de données comprenant au moins un signal codé représentatif d'un signal audio source, comprenant une représentation du signal source sous la forme d'une pluralité de composantes sinusoïdales décrites dans un espace de représentation en amplitude, en phase et en temps, lesdites composantes étant regroupées en au moins un groupe d'au moins deux composantes selon au moins un critère de similarité, au moins un desdits groupes comprenant : au moins une donnée de référence dudit groupe, ladite donnée de référence étant représentée par une phase déroulée issue d'une première composante dudit groupe, dite composante de référence ; - au moins une donnée de complément, associée à au moins une seconde composante dudit groupe, et permettant de reconstruire, en combinaison avec ladite donnée de référence, au moins une information représentative d'au moins une composante.
12. Procédé de décodage d'un signal codé représentatif d'un signal audio source, caractérisé en ce que, ledit signal comprenant une représentation du signal source sous la forme d'une pluralité de composantes sinusoïdales décrites dans un espace de représentation en amplitude, en phase et en temps, lesdites composantes étant regroupées en au moins un groupe d'au moins deux composantes selon au moins un critère de similarité, au moins un desdits groupes comprenant :
- au moins une donnée de référence dudit groupe, ladite donnée de référence étant représentée par une phase déroulée issue d'une première composante dudit groupe, dite composante de référence ; - au moins une donnée de complément, associée à au moins une seconde composante dudit groupe, et permettant de reconstruire, en combinaison avec ladite donnée de référence, au moins une information représentative d'une composante, ledit procédé comprend les étapes de : - obtention de la ou desdites données de référence et de la ou desdites données de complément ;
- reconstruction de la ou desdites informations représentatives desdites composantes, à partir desdites données de référence et de complément.
13. Procédé de décodage selon la revendication 12, caractérisé en ce qu'il comprend une étape de construction d'un signal audio reconstruit, représentatif dudit signal audio source, en tenant compte desdites informations représentatives desdites composantes.
14. Procédé de décodage selon l'une quelconque des revendications 12 et 13, caractérisé en ce qu'il comprend : - une étape de décodage d'au moins une donnée de référence, représentative d'une composante de référence dudit groupe ;
- une étape de décodage d'au moins une donnée de complément représentative d'une autre composante dudit groupe, par comparaison avec ladite donnée de référence ; - une étape de reconstruction de ladite autre composante par combinaison de ladite donnée de référence et de la ou desdites données de complément.
15. Procédé de décodage selon la revendication 14, caractérisé en ce que lesdites données de complément sont codées selon une période multiple d'une période d'échantillonnage, et en ce qu'il comprend une étape d'interpolation de données de complément estimées pour les périodes d'échantillonnage pour lesquelles une donnée de complément n'a pas été codée.
16. Procédé de décodage selon l'une quelconque des revendications 12 à 15, caractérisé en ce qu'il met en œuvre l'équation suivante : Φk n = ΦM_W +(Φ/>B ~ΦιA~m)y + Δp *q[index] où :
4>A:,n-m est une donnée quantifiée, à un instant indicé n-m, de la phase reconstruite de ladite composante d'indice k ;
Φ/ „ est une donnée quantifiée, à un instant indicé n, de la phase reconstruite de ladite composante d'indice /; - Φ}>n-m est mιG donnée quantifiée, à un instant indicé n-m, de la phase reconstruite de ladite composante d'indice /;
J^ est une valeur de ladite fréquence reconstruite correspondant à ladite composante ; fl est une valeur de ladite fréquence reconstruite correspondant à ladite composante du groupe de référence ;
Ap est un pas de quantification d'une erreur de quantification ; q[index] est une valeur entière correspondant à une valeur quantifiée de correction.
17. Procédé de décodage selon l'une quelconque des revendications 12 à 16, caractérisé en ce qu'il comprend : une étape de prédiction selon un axe temporel de ladite donnée de référence par rapport à au moins une valeur précédente correspondante, délivrant au moins une donnée prédite ; - une étape d'ajout à au moins une desdites données prédites d'un résidu correspondant transmis dans ledit signal, de façon à obtenir une donnée réelle reconstruite.
18. Produit programme d'ordinateur téléchargeable depuis un réseau de communication et/ou stocké sur un support lisible par ordinateur et/ou exécutable par un microprocesseur, caractérisé en ce qu'il comprend des instructions de code de programme pour la mise en œuvre du procédé de décodage selon l'une au moins des revendications 12 à 17.
19. Dispositif de décodage d'un signal codé représentatif d'un signal audio source, caractérisé en ce que, ledit signal comprenant une représentation du signal source sous la forme d'une pluralité de composantes sinusoïdales décrites dans un espace de représentation en amplitude, en phase et en temps, lesdites composantes étant regroupées en au moins un groupe d'au moins deux composantes selon au moins un critère de similarité, chacun desdits groupes comprenant : au moins une donnée de référence dudit groupe, ladite donnée de référence étant représentée par une phase déroulée issue d'une première composante dudit groupe, dite composante de référence ; - au moins une donnée de complément, associée à au moins une seconde composante dudit groupe, et permettant de reconstruire, en combinaison avec ladite donnée de référence, au moins une information représentative d'une composante, ledit dispositif comprend : - des moyens d'obtention de la ou desdites données de référence et de la ou desdites données de complément ;
- des moyens de reconstruction de la ou desdites informations représentatives desdites composantes, à partir desdites données de référence et de complément.
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| FR0601175A FR2897212A1 (fr) | 2006-02-09 | 2006-02-09 | Procede de codage d'un signal audio source, dispositif de codage, procede de decodage, signal, support de donnees, produits programme d'ordinateur correspondants |
| PCT/FR2007/050775 WO2007091000A2 (fr) | 2006-02-09 | 2007-02-09 | Procede de codage d'un signal audio source, dispositif de codage, procede de decodage, signal, support de donnees, produits programme d'ordinateur correspondants |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| EP1982330A2 true EP1982330A2 (fr) | 2008-10-22 |
Family
ID=37056453
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| EP07731600A Withdrawn EP1982330A2 (fr) | 2006-02-09 | 2007-02-09 | Procede de codage d'un signal audio source, dispositif de codage, procede de decodage, signal, support de donnees, produits programme d'ordinateur correspondants |
Country Status (4)
| Country | Link |
|---|---|
| US (1) | US20090187411A1 (fr) |
| EP (1) | EP1982330A2 (fr) |
| FR (1) | FR2897212A1 (fr) |
| WO (1) | WO2007091000A2 (fr) |
Families Citing this family (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN108694955B (zh) * | 2017-04-12 | 2020-11-17 | 华为技术有限公司 | 多声道信号的编解码方法和编解码器 |
| CN112543027B (zh) * | 2020-12-16 | 2022-11-15 | 中国石油大学(华东) | 基于模式识别的窄脉宽负脉冲式下传信号解码方法及系统 |
Family Cites Families (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5054072A (en) * | 1987-04-02 | 1991-10-01 | Massachusetts Institute Of Technology | Coding of acoustic waveforms |
| KR100861884B1 (ko) * | 2000-06-20 | 2008-10-09 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 정현파 코딩 방법 및 장치 |
| ES2337903T3 (es) * | 2003-10-13 | 2010-04-30 | Koninklijke Philips Electronics N.V. | Codificacion de audio. |
-
2006
- 2006-02-09 FR FR0601175A patent/FR2897212A1/fr active Pending
-
2007
- 2007-02-09 EP EP07731600A patent/EP1982330A2/fr not_active Withdrawn
- 2007-02-09 US US12/278,882 patent/US20090187411A1/en not_active Abandoned
- 2007-02-09 WO PCT/FR2007/050775 patent/WO2007091000A2/fr not_active Ceased
Non-Patent Citations (1)
| Title |
|---|
| See references of WO2007091000A2 * |
Also Published As
| Publication number | Publication date |
|---|---|
| FR2897212A1 (fr) | 2007-08-10 |
| US20090187411A1 (en) | 2009-07-23 |
| WO2007091000A3 (fr) | 2007-10-18 |
| WO2007091000A2 (fr) | 2007-08-16 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| EP2277172B1 (fr) | Dissimulation d'erreur de transmission dans un signal audionumerique dans une structure de decodage hierarchique | |
| EP1997103B1 (fr) | Procede de codage d'un signal audio source, dispositif de codage, procede et dispositif de decodage, signal, produits programme d'ordinateur correspondants | |
| CA2766777C (fr) | Allocation de bits dans un codage/decodage d'amelioration d'un codage/decodage hierarchique de signaux audionumeriques | |
| EP1987513B1 (fr) | Procede et dispositif de codage hierarchique d'un signal audio source, procede et dispositif de decodage, programmes et signal correspondants | |
| EP2586133B1 (fr) | Contrôle d'une boucle de rétroaction de mise en forme de bruit dans un codeur de signal audionumérique | |
| EP1575032A2 (fr) | Procédé et dispositif pour le codage et décodage audio sans perte | |
| EP1905010A2 (fr) | Dispositif de codage/decodage hierarchique | |
| WO2009027606A1 (fr) | Codage/decodage par plans de symboles, avec calcul dynamique de tables de probabilites | |
| FR2761801A1 (fr) | Methode de codage audio et dispositif | |
| FR2867649A1 (fr) | Procede de codage multiple optimise | |
| EP2080194B1 (fr) | Attenuation du survoisement, notamment pour la generation d'une excitation aupres d'un decodeur, en absence d'information | |
| EP2769378A2 (fr) | Codage hierarchique perfectionne | |
| EP3175444A1 (fr) | Gestion de la perte de trame dans un contexte de transition fd/lpd | |
| EP2347411B1 (fr) | Attenuation de pre-echos dans un signal audionumerique | |
| US20040138886A1 (en) | Method and system for parametric characterization of transient audio signals | |
| EP2795618A1 (fr) | Procédé de détection d'une bande de fréquence prédéterminée dans un signal de données audio, dispositif de détection et programme d'ordinateur correspondant | |
| WO2009081003A1 (fr) | Codage/decodage par transformee, a fenetres adaptatives | |
| EP2591556A1 (fr) | Procédé de détermination d'au moins un paramètre d'un code correcteur d'erreurs mis en uvre en émission, dispositif et programme d'ordinateur correspondants | |
| EP1982330A2 (fr) | Procede de codage d'un signal audio source, dispositif de codage, procede de decodage, signal, support de donnees, produits programme d'ordinateur correspondants | |
| FR3020732A1 (fr) | Correction de perte de trame perfectionnee avec information de voisement | |
| FR2961937A1 (fr) | Codage/decodage predictif lineaire adaptatif | |
| EP2203915A1 (fr) | Dissimulation d'erreur de transmission dans un signal numerique avec repartition de la complexite | |
| FR2901433A1 (fr) | Conversion entre representations en domaines de sous-bandes pour des bancs de filtres variant dans le temps | |
| WO2011144863A1 (fr) | Codage avec mise en forme du bruit dans un codeur hierarchique | |
| WO2006108736A1 (fr) | Procédé et dispositif de quantification progressive, procédé et dispositif de quantification inverse, programmes informatiques, signal et support de données correspondants |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PUAI | Public reference made under article 153(3) epc to a published international application that has entered the european phase |
Free format text: ORIGINAL CODE: 0009012 |
|
| 17P | Request for examination filed |
Effective date: 20080722 |
|
| AK | Designated contracting states |
Kind code of ref document: A2 Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LI LT LU LV MC NL PL PT RO SE SI SK TR |
|
| 17Q | First examination report despatched |
Effective date: 20100923 |
|
| GRAP | Despatch of communication of intention to grant a patent |
Free format text: ORIGINAL CODE: EPIDOSNIGR1 |
|
| STAA | Information on the status of an ep patent application or granted ep patent |
Free format text: STATUS: THE APPLICATION IS DEEMED TO BE WITHDRAWN |
|
| 18D | Application deemed to be withdrawn |
Effective date: 20110708 |