WO2002058051A2 - Verfahren und vorrichtung zum erzeugen eines skalierbaren datenstroms und verfahren und vorrichtung zum decodieren eines skalierbaren datenstroms unter berücksichtigung einer bitsparkassenfunktion - Google Patents

Verfahren und vorrichtung zum erzeugen eines skalierbaren datenstroms und verfahren und vorrichtung zum decodieren eines skalierbaren datenstroms unter berücksichtigung einer bitsparkassenfunktion Download PDF

Info

Publication number
WO2002058051A2
WO2002058051A2 PCT/EP2002/000295 EP0200295W WO02058051A2 WO 2002058051 A2 WO2002058051 A2 WO 2002058051A2 EP 0200295 W EP0200295 W EP 0200295W WO 02058051 A2 WO02058051 A2 WO 02058051A2
Authority
WO
WIPO (PCT)
Prior art keywords
encoder
output data
input signal
blocks
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
PCT/EP2002/000295
Other languages
English (en)
French (fr)
Other versions
WO2002058051A3 (de
Inventor
Ralph Sperschneider
Bodo Teichmann
Manfred Lutzky
Bernhard Grill
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Foerderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Foerderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Foerderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Foerderung der Angewandten Forschung eV
Priority to JP2002558258A priority Critical patent/JP3890298B2/ja
Priority to EP02708282A priority patent/EP1354314B1/de
Priority to HK03109020.2A priority patent/HK1056790B/xx
Priority to AT02708282T priority patent/ATE272884T1/de
Priority to CA002434783A priority patent/CA2434783C/en
Priority to KR10-2003-7009508A priority patent/KR100516985B1/ko
Priority to DE50200750T priority patent/DE50200750D1/de
Priority to US10/466,866 priority patent/US7496517B2/en
Priority to AU2002242667A priority patent/AU2002242667B2/en
Publication of WO2002058051A2 publication Critical patent/WO2002058051A2/de
Publication of WO2002058051A3 publication Critical patent/WO2002058051A3/de
Anticipated expiration legal-status Critical
Ceased legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders

Definitions

  • Method and device for generating a scalable data stream and method and device for decoding a scalable data stream taking into account a bit savings bank function
  • the present invention relates to scalable encoders and decoders and in particular to the generation of scalable data streams by means of which a bit savings bank can be signaled.
  • Scalable encoders are shown in EP 0 846 375 B1.
  • scalability is understood to mean the possibility of a subset of a bit stream that contains an encoded data signal, e.g. represents an audio signal or a video signal to be decoded into a usable signal. This property is particularly desirable when e.g. a data transmission channel does not provide the full bandwidth required to transmit a full bit stream.
  • incomplete decoding on a decoder with lower complexity is possible.
  • different discrete scalability layers are defined in practice.
  • FIG. 1 An example of a scalable encoder as defined in subpart 4 (general audio) of part 3 (audio) of the MPEG-4 standard (ISO / IEC 14496-3: 1999 subpart 4) is shown in FIG. 1 , An audio signal s (t) to be coded is fed into the scalable encoder on the input side.
  • the scalable encoder shown in Fig. 1 includes a first encoder 12, which is an MPEG-Celp encoder.
  • the second encoder 14 is an AAC encoder that provides high quality audio coding and is defined in the MPEG-2 AAC (ISO / IEC 13818) standard.
  • the Celp encoder 12 supplies a first scaling layer via an output line 16, while the AAC encoder 14 provides a second output layer.
  • bitstream multiplexer Bitstream multiplexer
  • LATM low-overhead MPEG-4 audio transport multiplex.
  • the LATM format is described in Section 6.5 of Part 3 (Audio) of the first addition to the MPEG-4 standard (ISO / IEC 14496-3: 1999 / AMD1: 2000).
  • the scalable audio encoder also includes some other elements. First there is a delay stage 24 in the AAC branch and a delay stage 26 in the Celp branch. An optional delay can be set for each branch using both delay levels.
  • the delay stage 26 of the Celp branch is followed by a downsampling stage 28 in order to adapt the sampling rate of the input signal s (t) to the sampling rate required by the Celp encoder.
  • An inverse celp decoder 30 is connected downstream of the celp encoder 12, the celp-coded / decoded signal being fed to an upsampling stage 32.
  • the sampled up signal is then fed to a further delay stage 34, which is referred to in the MPEG-4 standard as "core encoder or delay".
  • the CoreDoderDelay 34 level has the following function. If the delay is set to zero, the first encoder 14 and the second encoder 16 process exactly the same samples of the audio input signal in a so-called superframe.
  • a superframe can consist, for example, of three AAC frames, which together represent a certain number of samples No. x to No. y of the audio signal.
  • a CoreCoderDelay D is set as a time variable other than zero, the three blocks of AAC frames nevertheless represent the same sample values No. x to No. y.
  • the eight blocks of CELP frames represent sample values No. x - Fs D to No. y - Fs D, where Fs is the sampling frequency of the input signal.
  • the only requirement for a superframe is that the AAC block (s) and the CELP blocks (s) in a superframe represent the same number of samples, the samples themselves not necessarily being identical, but also around CoreCoderDelay can be shifted to each other.
  • the Celp encoder processes a section of the input signal s (t) faster than the AAC encoder 14.
  • the optional delay stage 24 is followed by a block decision stage 26, which may be used. a. determines whether short or long windows should be used to window the input signal s (t), whereby short windows should be selected for strongly transient signals, while long windows are preferred for less transient signals, since the relationship between the amount of user data and side information is better for them than with short windows.
  • a fixed delay of z. B. performs 5/8 times a block. This is referred to in technology as the look-ahead function.
  • the block decision stage has to look ahead for a certain time in order to be able to determine whether there are transient signals in the future must be coded with short windows.
  • the output signals of the MDCT blocks 36, 38 are then fed to a subtractor 40.
  • the subsequent block 44 determines whether it is more favorable to feed the input signal per se to the AAC encoder 14. This is made possible by the bypass branch 42. However, if it is determined that the difference signal at the output of the subtractor 40 is e.g. is lower in energy than the signal output by the MDCT block 38, the difference signal is not taken, but the difference signal, in order to be encoded by the AAC encoder 14 in order to finally form the second scaling layer 18. This comparison can be carried out in bands, which is indicated by a frequency-selective switching device (FSS) 44.
  • FSS frequency-selective switching device
  • An essential feature of the MPEG-4 standard and also of other encoder standards is that the transmission of the compressed data signal should take place over a channel with a constant bit rate.
  • All high-quality audio codecs work block-based, ie they process blocks of audio data (order of magnitude 480-1024 samples) to pieces of a compressed bit stream, which are also referred to as frames.
  • the bitstream format must be structured so that a decoder without a priori information where a frame begins is able to recognize the beginning of a frame in order to start outputting the decoded audio signal data with the least possible delay. Therefore, each header or destination data block of a frame begins with a particular synchronization word that can be searched for in a continuous bit stream.
  • Other common components in the data stream in addition to the determination data block are the main data or "payload data" of the individual layers, in which the actual compressed audio data are contained.
  • bit stream format shows a bit stream format with a fixed frame length.
  • the headers or determination data blocks are inserted equidistantly into the bitstream.
  • the side information and main data associated with this header follow immediately behind.
  • the length, i.e. Number of bits, for the main data is the same in every frame.
  • Such a bit stream format is used for example in MPEG Layer 2 or MPEG-CELP.
  • Fig. 5 shows another bit stream format with a fixed frame length and a back pointer or backward pointer.
  • the header and page information are arranged equidistantly as in the format shown in FIG. 4.
  • the start of the associated main data only occurs in exceptional cases immediately after a header. In most cases, the start is in one of the previous frames.
  • the number of bits by which the start of the main data in the bit stream is shifted is transmitted by the side information variable back pointer.
  • the end of this main data can be in this frame or in a previous frame.
  • the length of the main data is no longer constant.
  • This technique is called "Bitsparkasse" and increases the theoretical Delay in the transmission chain.
  • Such a bitstream format is used for example in MPEG Layer 3 (MP3).
  • MP3 MPEG Layer 3
  • the technology of the bit savings bank is also described in the standard MPEG Layer 3.
  • the bit savings bank represents a buffer of bits that can be used to provide more bits for coding a block of temporal samples than are actually permitted by the constant output data rate.
  • the technology of the bit savings bank takes into account the fact that some blocks of audio samples can be coded with fewer bits than specified by the constant transmission rate, so that these blocks fill the bit bank, while still other blocks of audio samples have psychoacoustic properties that are not so allow large compression, so that the available bits would not be sufficient for these blocks for low-interference or interference-free coding.
  • the required surplus bits are taken from the bit savings bank, so that the bit savings bank is emptied in such blocks.
  • Such an audio signal could also be transmitted in a format with a variable frame length.
  • bit stream format “variable frame length”
  • the fixed order of the bit stream elements header, page information and main data is maintained as with the "fixed frame length”. Since the length of the main data is not constant, the bit savings bank technique can also be used here, but no back pointers as in FIG. 5 are required.
  • An example of a bit stream format, as shown in FIG. 6, is the transport format ADTS (Audio Data Transport Stream), as defined in the MPEG 2 AAC standard.
  • the aforementioned encoders are not all scalable encoders, but only comprise a single audio encoder.
  • MPEG 4 provides for the combination of different encoders / decoders to form a scalable encoder / decoder. It is possible and useful to combine a Celp speech coder as the first coder with an AAC coder for the further or the further scaling layers and to package it in a bit stream. The purpose of this combination is that it is possible to either decode all scaling layers or layers and thus achieve the best possible audio quality, or parts of it, possibly only the first scaling layer with the corresponding limited audio quality.
  • the MPEG 4 version 2 standardizes the LATM transport format, which can also transmit scalable data streams.
  • FIG. 2a is a schematic representation of the samples of the input signal s (t).
  • the input signal can be divided into different successive sections 0, 1, 2, 3, each section having a certain fixed number of time has samples.
  • the AAC encoder 14 (FIG. 1) processes an entire section 0, 1, 2 or 3 to provide an encoded data signal for that section.
  • the celp encoder 12 (FIG. 1) usually processes a smaller amount of temporal samples per coding step.
  • the celp encoder or generally speaking the first encoder or coder 1
  • this division is completely arbitrary.
  • the block length of the first encoder could also be half as long, but could also be one eleventh of the block length of the second encoder.
  • the first encoder will generate four blocks (11, 12, 13, 14) from the section of the input signal, from which the second encoder supplies a block of data.
  • a conventional LATM bitstream format is shown in FIG. 2c.
  • a superframe can have different ratios of the number of AAC frames to the number of CELP frames, as is tabulated in MPEG 4. So a superframe z. B. an AAC block and 1 to 12 CELP blocks, 3 AAC blocks and 8 CELP blocks but also z. B. have more AAC blocks than CELP blocks depending on the configuration.
  • a LATM frame that has a LATM determination data block comprises one or more superframes.
  • the generation of the LATM frame opened by header 1 is described as an example.
  • the output data blocks 11, 12, 13, 14 of the Celp encoder 12 (FIG. 1) are generated and buffered.
  • the output data block of the AAC encoder which is labeled "1" in FIG. 2c, is generated.
  • the determination data block (header 1) is only written.
  • the output data block of the first encoder which is generated first and is designated 11 in FIG. 2c, can then be written directly after the header 1, ie be transmitted.
  • An equidistant spacing of the output data blocks of the first encoder is usually chosen (in view of the small signaling information required) for further writing or transmission of the bit stream, as shown in FIG. 2c.
  • the output data block 1 of the second encoder is filled into the remaining gaps during the transmission. Then a LATM frame is completely written, ie transmitted.
  • a disadvantage of the known bit stream formats shown in FIGS. 4 to 6 is the fact that they are not suitable for scalable data streams.
  • bit stream formats there is no bit stream format for a scalable data stream, so that the bit savings bank function for scalable data streams with output data from encoders with different time bases, in particular for the combination of AAC encoder and CELP encoder of a scalable encoding device, is currently not usable can be made.
  • the AAC encoder since a constant transmission rate is required, but the AAC encoder outputs blocks of different lengths depending on the properties of the encoded signal, the situation may well arise that the AAC encoder encodes a section of the time signal more bits than specified by the transmission rate, needed, while again requesting fewer bits for another section than specified by the output data rate.
  • the AAC encoder of the scalable coding device will run out of bits, while the AAC encoder of the scalable coding device in the former case will not, in order to maintain the constant output data rate comes to introduce audible interference in the encoded and decoded signal.
  • the object of the present invention is to provide a method and a device for generating a scalable data stream which is suitable for the fact that a bit savings bank function can be used for a scaling layer.
  • Another object of the present invention is to provide a method for decoding a scalable data stream.
  • the present invention is based on the finding that the known concept set out in FIG. 2c has to be abandoned, which consists in that all data of an output data block of the second encoder are arranged between two successive LATM headers. Instead, it is permitted that output data of the second encoder, which represent a preceding time period of the input signal, are also written after a determination data block for the current time period, this fact or how much data is still written behind the determination data block in the transmission direction special buffer information also to be transmitted is signaled to a decoder.
  • the decoder can then easily determine, based on a determination data block and using the buffer information, where the output data of the second encoder ends and where then the output data of the second Encoders for the current time period begin, so that the decoder is able to connect the corresponding output data blocks of the first encoder with corresponding output data blocks of the second encoder in order to decode the signal in all layers again, the expression "corresponding" refers to the fact that the corresponding data of the first and the second encoder are related to the same section of the input signal in the case of CoreCoderDelay equal to zero (see FIG. 1) or to current sections shifted by CoreCoderDelay for the first and the second encoder.
  • a determination data block is therefore written for a current section of the input signal.
  • the output data of the second encoder which represent a preceding section of the input signal, are written in the transmission direction from an encoder to a decoder behind the determination data block.
  • the output data of the second encoder which relate to the current section of the input signal, that is to say which actually belong to the determination data block, can then be written when the output data of the second encoder for the preceding section have been written completely.
  • buffer information is written into the scalable data stream, the buffer information indicating how far the output data of the second encoder for the preceding section extend behind the determination data block for the current section.
  • the output data of the first encoder can either be written equidistantly or not in the scalable data stream, but it is desirable, for delay reasons, to enable low-delay decoding of the first scaling layer alone, i.e. only of the output data blocks of the first encoder Write data blocks equidistant and delay optimized.
  • bit savings bank u. a. defined by the maximum size of the bit savings bank, this value being referred to in FIG. 3 as “Max Bufferfullness”. This value is fixed and known to the decoder. In addition, the current value of the bit savings bank occupancy, which is referred to as “buffer fullness”, is transmitted in the data stream.
  • Max Bufferfullness and Bufferfullness when the present invention is applied to an MPEG 4 encoder, provides the buffer information and, as will be explained later, in this case it must be taken into account that in the AAC Blocks of interspersed Celp blocks or data from other scaling layers must not be taken into account in order to find the exact value of the start of the output data of the second data block behind the LATM determination data block.
  • the format according to the invention also enables output data blocks of varying lengths of the second encoder to be transmitted in an equidistant grid of determination data blocks. It may make sense to select the grid for the determination data blocks and the grid for the output data blocks of the first encoder equidistantly, and in particular to choose such that a determination data block is always followed by an output data block of the first encoder.
  • the output data block of the second encoder is then written into the remaining gaps, the buffer information signaling how much data of the second encoder behind a determination data block belongs to the time period to which the determination data block refers, or to the preceding time segment of the input signal count so that the decoder can unambiguously and unambiguously create an association between output data blocks of the first encoder and an output data block of the second encoder for a period of the input signal. It is also an advantage of the present invention that the signaling of the output data block behind the determination data block can easily be combined with a signaling of output data blocks of the first encoder before the determination data block for the current time period in order to enable low-delay decoding only of the first scaling layer.
  • the scalable data stream according to the invention is particularly useful for real-time applications, but can also be used for non-real-time applications as well.
  • 2a shows a schematic representation of an input signal which is divided into successive time segments
  • 2b shows a schematic representation of an input signal which is divided into successive time segments, the ratio of the block length of the first encoder to the block length of the second encoder being shown;
  • 2c shows a schematic illustration of a scalable data stream with a high delay in the decoding of the first scaling layer
  • 2d shows a schematic illustration of a scalable data stream with low delay in the decoding of the first scaling layer
  • 2e shows a bitstream format according to the present invention. fertilizer in which output data of the second encoder from a previous time period are arranged behind the determination data block for a current section;
  • FIG. 3 shows a detailed illustration of the scalable data stream according to the invention using the example of a Celp encoder as the first encoder and an AAC encoder as the second encoder with a bit savings bank function.
  • FIG. 5 shows an example of a bit stream format with a fixed frame length and back pointer
  • FIG. 6 shows an example of a bit stream format with a variable frame length.
  • FIG. 2d is discussed in comparison to FIG. 2c in order to explain a bit stream with a low delay for the first scaling layer.
  • the scalable data stream contains successive determination data blocks, which are designated as header 1 and header 2.
  • the destination data blocks are LATM headers.
  • the LATM header 200 In the direction of transmission from an encoder to a decoder, which is shown with an arrow 202 in FIG. 2d, behind the LATM header 200 are the parts of the output data block of the AAC encoder hatched from top left to bottom right, which are in remaining gaps between Output data blocks of the first encoder are entered.
  • the offset information 204 indicate an offset of the output data blocks of the first encoder from two output data blocks. If FIG. 2d is compared with FIG.
  • the decoder can already decode the lowest scaling layer earlier by a time corresponding to this offset than in the case of FIG. 2c if the decoder is only interested in the first scaling layer is.
  • the offset information e.g. B. can be signaled in the form of a "core frame offset" are used to determine the position of the first output data block 11 in the bit stream.
  • the output data blocks 13 and 14 can follow the LATM header 200, whereby the delay in the case of pure celp decoding, that is to say decoding of the first scaling layer, is reduced by two celp block lengths.
  • an offset of three blocks would be optimal.
  • an offset of one or two blocks also brings a delay advantage.
  • the celp encoder it is possible for the celp encoder to transmit the generated celp block immediately after encoding. In this case, no additional delay is added to the Celp encoder by the bit stream multiplexer (20). Thus, in this case, no additional delay is added to the celp delay by the scalable combination, so that the delay becomes minimal.
  • the z. B. can vary from 1: 2 to 1:12 or can also assume other ratios, with ratios greater or less than one.
  • FIG. 2e In contrast to FIG. 2d, in which the offset function, that is to say the displacement of the output data blocks of the first encoder with respect to a determination data block, is shown in FIG. 2e the displacement of the Output data blocks of the second encoder are represented with respect to the grid given by the determination data blocks.
  • the arrangement of the output data blocks of the first encoder, which are denoted by 11, 12, 13, 14, 21, 22, 23, 24, 31 in FIG. 2e, is unchanged compared to FIG. 2d. While no bit savings bank function is possible in FIG. 2d or, if the determination data blocks are to be in a fixed grid, no output data blocks of variable length can be used for the second encoder, this is now possible in FIG. 2e according to the present invention.
  • the data of the output data block of the second encoder of the preceding section which is denoted by "0" in FIGS. 2a to 2e, are written in the transmission direction from an encoder to a decoder after the LATM header 200 until the scalable encoder has all the data of the has written the previous section in the bit stream. Only then is a transition limit 220 started to write the output data of the second encoder for the current section of the input signal into the bit stream.
  • transition boundary 220 may or may not coincide with a boundary of a celp data block.
  • either the distance from the end of the determination data block to the transition limit 220 or the distance from the start of the determination data block to the transition limit 220 or the distance from the rear limit of the celp block 13 to the transition limit 220 with or without the length of the celp Blocks 13, 14 and / or the length of the determination data block are signaled as buffer information.
  • the latter variant is shown in more detail with reference to FIG. 3.
  • the length of the the pointer designated "buffer information" in FIG. 2e which is identified by the reference symbol 314 in FIG. 3, is exactly the same as the difference between Max Bufferfullness and Bufferfullness, if the length of the determination data blocks and the length of any Celp blocks as well as possibly existing further scaling layers are not taken into account, as is represented by the broken arrow with reference to FIG. 3.
  • FIG. 3 which is similar to FIG. 2, but represents the special implementation using the example of MPEG 4.
  • a current time period is shown hatched in the first line.
  • the windowing used in the AAC encoder is shown schematically. As is known, an overlap-and-add of 50% is used, so that a window is usually twice the length of time samples as the current time period, which is hatched in the top line of FIG. 3.
  • FIG. 3 also shows the delay tdip, which corresponds to block 26 of FIG. 1 and which in the selected example has a size of 5/8 of the block length.
  • a block length of the current time segment of 960 samples is typically used, so that the delay tdip of 5/8 of the block length is 600 samples.
  • the AAC encoder delivers a bit stream of 24 kbit / s
  • the Celp encoder shown schematically below delivers a bit stream at a rate of 8 kbit / s. This results in a total bit rate of 32 kbit / s.
  • the output data blocks zero and one of the Celp encoder correspond to the current time period of the first encoder.
  • the output data block with number 2 of the Celp encoder already corresponds to the next time period.
  • the delay of the downsampling stage 28 and the celp encoder 12 is also shown by an arrow, which is identified by the reference symbol 302 is shown. From this, the delay, which must be set by the stage 34 so that the same conditions exist at the subtracting point 40 of FIG. 1, results in the delay, which is designated by the core code delay and is illustrated by an arrow 304 in FIG. 3 , Alternatively, this delay can also be generated by block 26. For example:
  • FIG. 3 In contrast to FIG. 2d, in which four output data blocks of the first encoder are generated in accordance with an output data block of the second encoder, in FIG. 3 two for an output data block of the second encoder, which is drawn in black in the last two lines of FIG. 3 Output data blocks of the Celp encoder, designated "0" and "1", are generated.
  • the output data block of the Celp encoder with the number "0" is no longer written behind a first LATM header 306, but rather the output data block of the Celp encoder with the number "one", especially since the output data block with the number "zero" has already been transmitted to the decoder.
  • the celp block 1 is followed by the celp block 2 for the next period of time, with the rest of the data of the output data block of the AAC encoder being written into the data stream until a frame is completed until another LATM header 308 follows for the next time period.
  • the present invention can be easily combined with the bit savings bank function.
  • the data for the AAC frame of the current time period which is designated by 310 in FIG. 3, is present at exactly the same time as in the case "1", but can only be written into the bit stream after the AAC Data 312 for the immediately preceding period of time has been written into the bit stream.
  • the starting position of the AAC frame is thus shifted depending on the bit savings bank level of the AAC encoder.
  • the bit savings bank status is transferred according to MPEG 4 in the element StreamMuxConfig by the variable "Bufferfullness".
  • the variable buffer fullness is calculated from the variable bit reservoir divided by 32 times the currently existing number of channels of the audio channels.
  • pointer 314 is deliberately drawn interrupted below the celp block 2, since it does not take into account the length of the celp block 2 or the length of the celp block 1, since this data naturally has nothing to do with the bit savings bank of the AAC encoder. Furthermore, no header data and bits from any other layers that may be present are taken into account.
  • the celp frames are first extracted from the bit stream, which is readily possible since, for example, they are arranged equidistantly and have a fixed length.
  • the length and spacing of all CELP blocks can be signaled in the LATM header anyway, so that immediate decoding is possible in any case.
  • variable core frame offset can now be used to shift output data blocks of the first encoder forward in the bit stream, while the arrow 314 (max Bufferfullness - Bufferfullness a shift of the output data block of the second encoder to the rear can be achieved in the scalable data stream, so that the bit savings bank function can also be implemented in the scalable data stream in a simple and safe manner, while the basic grid of the bit stream is maintained by the successive LATM determination data blocks, which are written whenever the AAC encoder has encoded a period of time, and which can therefore serve as a reference point, even if, as shown in the last line in FIG.

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)

Abstract

Verfahren und Vorrichtung zum Erzeugen eines skalierbaren Datenstroms und Verfahren und Vorrichtung zum Decodieren eines skalierbaren Datenstroms unter Berücksichtigung einer Bitsparkassenfunktion ZusammenfassungIn einem Verfahren zum Erzeugen eines skalierbaren Daten-stroms aus einem oder mehreren Blöcken von Ausgangsdaten ei-nes ersten Codierers und aus einem oder mehreren Blöcken von Ausgangsdaten eines zweiten Codierers, wird ein Bestimmungs-datenblock (306) für einen aktuellen Abschnitt eines Ein-gangssignals geschrieben. Darüber hinaus werden Ausgangsda-ten (312) des zweiten Codierers, die einen vorhergehenden Abschnitt des Eingangssignals darstellen, in Übertragungs-richtung von einem Codierer zu einem Decodierer hinter den Bestimmungsdatenblock (306) geschrieben. Wenn die Ausgangs-daten (312) des zweiten Codierers für einen vorhergehenden Abschnitt des Eingangssignals geschrieben sind, werden die Ausgangsdaten (310) des zweiten Codierers, die den aktuellen Abschnitt des Eingangssignals darstellen, geschrieben. Um zu signalisieren, wo die Ausgangsdaten des zweiten Codierers für den vorhergehenden Abschnitt enden und die Ausgangsdaten des zweiten Codierers für den aktuellen Abschnitt beginnen, werden Pufferinformationen (314) in den skalierbaren Daten-strom geschrieben. Dadurch, daß Ausgangsdaten eines vorhergehenden Abschnitts einem Bestimmungsdatenblock für den ak-tuellen Abschnitt folgen, kann eine Bitsparkassenfunktion im skalierbaren Codierer implementiert und im Bitstrom einfach signalisiert werden.

Description

Verfahren und Vorrichtung zum Erzeugen eines skalierbaren Datenstroms und Verfahren und Vorrichtung zum Decodieren eines skalierbaren Datenstroms unter Berücksichtigung einer Bitsparkassenfunktion
Beschreibung
Die vorliegende Erfindung bezieht sich auf skalierbare Codierer und Decodierer und insbesondere auf das Erzeugen von skalierbaren Datenströmen, durch die eine Bitsparkasse signalisiert werden kann.
Skalierbare Codierer sind in der EP 0 846 375 Bl gezeigt. Allgemein versteht man unter der Skalierbarkeit die Möglichkeit, einen Teilsatz eines Bitstroms, der ein codiertes Datensignal, wie z.B. ein Audiosignal oder ein Videosignal, darstellt, in ein nutzbares Signal zu decodieren. Diese Eigenschaft ist insbesondere dann gewünscht, wenn z.B. ein Datenübertragungskanal nicht die nötige vollständige Bandbreite zur Übertragung eines vollständigen Bitstroms zur Verfügung stellt. Andererseits ist eine unvollständige De- codierung auf einem Decodierer mit niedrigerer Komplexität möglich. Allgemein werden in der Praxis verschiedene diskrete Skalierbarkeitsschichten definiert.
Ein Beispiel für einen skalierbaren Codierer, wie er im Sub- part 4 (General Audio) des Parts 3 (Audio) des MPEG-4 Standards (ISO/IEC 14496-3:1999 Subpart 4) definiert ist, ist in Fig. 1 gezeigt. Ein zu codierendes Audiosignal s(t) wird eingangsseitig in den skalierbaren Codierer eingespeist. Der in Fig. 1 gezeigte skalierbare Codierer enthält einen ersten Codierer 12, der ein MPEG-Celp-Codierer ist. Der zweite Codierer 14 ist ein AAC-Codierer, der eine hochqualitative Audiocodierung liefert und im Standard MPEG-2 AAC (ISO/IEC 13818) definiert ist. Der Celp-Codierer 12 liefert über eine Ausgangsleitung 16 eine erste Skalierungsschicht, während der AAC-Codierer 14 über eine zweite Aus- gangsleitung 18 eine zweite Skalierungsschicht zu einem Bit- strom-Multiplexer (BitMux) 20 liefert. Ausgangsseitig gibt der Bitstrom-Multiplexer dann einen MPEG-4-LATM-Bitstrom 22 aus (LATM = Low-Overhead MPEG-4 Audio Transport Multiplex) . Das LATM-Format ist im Abschnitt 6.5 des Parts 3 (Audio) der ersten Ergänzung zum MPEG-4 Standard (ISO/IEC 14496-3: 1999/AMD1 :2000 ) beschrieben.
Der skalierbare Audiocodierer umfaßt ferner einige weitere Elemente. Zunächst existiert eine Verzögerungsstufe 24 im AAC-Zweig und eine Verzögerungsstufe 26 im Celp-Zweig. Durch beide Verzögerungsstufen kann eine optionale Verzögerung für den jeweiligen Zweig eingestellt werden. Der Verzögerungsstufe 26 des Celp-Zweigs ist eine Downsampling-Stufe 28 nachgeschaltet, um die Abtastrate des Eingangssignals s(t) an die von dem Celp-Codierer geforderte Abtastrate anzupassen. Dem Celp-Codierer 12 nachgeschaltet ist ein inverser Celp-Decodierer 30, wobei das Celp-codierte/decodierte Signal einer Upsampling-Stufe 32 zugeführt wird. Das upge- sampelte Signal wird dann einer weiteren Verzögerungsstufe 34, die im MPEG-4-Standard mit "Core Coder Delay" bezeichnet ist, zugeführt.
Die Stufe CoreDoderDelay 34 hat folgende Funktion. Ist die Verzögerung auf Null eingestellt, so verarbeiten der erste Codierer 14 und der zweite Codierer 16 in einem sogenannten Superframe exakt dieselben Abtastwerte des Audioeingangssignals. Ein Superframe kann beispielsweise aus drei AAC- Frames bestehen, die zusammen eine gewisse Anzahl von Abtastwerten Nr. x bis Nr. y des Audiosignals darstellen. Der Superframe umfaßt ferner z. B. 8 CELP-Blöcke, die im Falle von CoreCoderDelay = 0 dieselbe Anzahl von Abtastwerten und auch dieselben Abtastwerte Nr. x bis Nr. y darstellen.
Ist dagegen ein CoreCoderDelay D als Zeitgröße ungleich Null eingestellt, so stellen die drei Blöcke von AAC Frames dennoch die gleichen Abtastwerte Nr. x bis Nr. y dar. Die acht Blöcke von CELP-Frames stellen dagegen Abtastwerte Nr. x - Fs D bis Nr. y - Fs D dar, wobei Fs die Abtastfrequenz des Eingangssignals ist.
Die aktuellen Zeitabschnitte des Eingangssignals in einem Superframe für die AAC-Blöcke und die CELP-Blöcke können somit entweder identisch sein, wenn CoreCoderDelay D = 0 ist, oder aber im Falle von D ungleich Null um CoreCoderDelay zueinander verschoben sein. Für die nachfolgenden Ausführungen wird jedoch aus Einfachheitsgründen ohne Einschränkung der Allgemeinheit ein CoreCoderDelay = 0 angenommen, so daß der aktuelle Zeitabschnitt des Eingangssignals für den ersten Coder und der aktuelle Zeitabschnitt für den zweiten Coder identisch sind. Allgemein besteht für einen Superframe jedoch lediglich die Anforderung, daß der/die AAC-Block/Blöcke und der/die CELP-Blöcke in einem Superframe dieselbe Anzahl von Abtastwerten darstellen, wobei die Abtastwerte an sich nicht unbedingt die identischen sein müssen, sondern auch um CoreCoderDelay zueinander verschoben sein können.
Es sei angemerkt, daß der Celp-Codierer einen Abschnitt des Eingangssignals s(t) je nach Konfiguration schneller verarbeitet als der AAC-Codierer 14. In dem AAC-Zweig ist der Optionaiverzögerungsstufe 24 eine Blockentscheidungsstufe 26 nachgeschaltet, die u. a. feststellt, ob zum Fenstern des Eingangssignals s(t) kurze oder lange Fenster zu verwenden sind, wobei für stark transiente Signale kurze Fenster zu wählen sind, während für weniger transiente Signale lange Fenster vorgezogen werden, da bei ihnen das Verhältnis zwischen Nutzdatenmenge und Seiteninformationen besser als bei kurzen Fenstern ist.
Durch die Blockentscheidungsstufe 26 wird im vorliegenden Beispiel eine feste Verzögerung um z. B. das 5/8-fache eines Blocks durchführt. Dies wird in der Technik als Look-Ahead- Funktion bezeichnet. Die Blockentscheidungsstufe muß bereits um eine gewisse Zeit vorausschauen, um überhaupt feststellen zu können, ob in der Zukunft transiente Signale sind, die mit kurzen Fenstern codiert werden müssen. Hierauf wird sowohl das entsprechende Signal im Celp-Zweig als auch das Signal im AAC-Zweig einer Einrichtung zum Umsetzen der zeitlichen Darstellung in eine spektrale Darstellung zugeführt, welche in Fig. 1 mit MDCT 36 bzw. 38 bezeichnet ist (MDCT = Modified Discrete Cosine Transform = Modifizierte Diskrete Cosinus-Transformation). Die Ausgangssignale der MDCT-Blöcke 36, 38 werden dann einem Subtrahierer 40 zugeführt.
An dieser Stelle müssen zeitlich zusammengehörige Abtastwerte vorliegen, d. h. das Delay muß in beiden Zweigen identisch sein.
Der darauffolgende Block 44 stellt fest, ob es günstiger ist, das Eingangssignal an sich dem AAC-Codierer 14 zuzuführen. Dies wird über den Umgehungszweig 42 ermöglicht. Wenn jedoch festgestellt wird, daß das Differenzsignal am Ausgang des Subtrahierers 40 z.B. energiemäßig kleiner ist als das von dem MDCT-Block 38 ausgegebene Signal, so wird nicht das ursprüngliche Signal, sondern das Differenzsignal genommen, um durch den AAC-Codierer 14 codiert zu werden, um schließlich die zweite Skalierungsschicht 18 zu bilden. Dieser Vergleich kann bandweise durchgeführt werden, was durch eine frequenzselektive Schalteinrichtung (FSS) 44 angedeutet ist. Die näheren Funktionen der einzelnen Elemente sind in der Technik bekannt und beispielsweise im MPEG-4-Standard sowie in weiteren MPEG-Standards beschrieben.
Ein wesentliches Merkmal beim MPEG-4-Standard bzw. auch bei anderen Codierer-Standards ist, daß die Übertragung des komprimierten Datensignals über einen Kanal mit konstanter Bitrate erfolgen soll. Alle High-Quality-Audiocodecs arbeiten blockbasiert, d.h. sie verarbeiten Blöcke von Audiodaten (Größenordnung 480-1024 Samples) zu Stücken eines komprimierten Bitstroms, welche auch als Frames bezeichnet werden. Das Bitstromformat muß dabei so aufgebaut sein, daß ein Decodierer ohne A-Priori-Informationen, wo ein Frame beginnt, in der Lage ist, den Anfang eines Frames zu erkennen um mit einer möglichst geringen Verzögerung die Ausgabe der decodierten Audiosignaldaten zu beginnen. Daher beginnt jeder Header oder Bestimmungsdatenblock eines Frames mit einem bestimmten Synchronisationswort, nach dem in einem kontinuierlichen Bitstrom gesucht werden kann. Weitere übliche Bestandteile im Datenstrom neben dem Bestimmungsdatenblock sind die Hauptdaten oder "Payload Data" der einzelnen Layer, in denen die eigentlichen komprimierten Audiodaten enthalten sind.
Fig. 4 zeigt ein Bitstromformat mit fester Framelänge. In diesem Bitstromformat werden die Header oder Bestimmungsdatenblöcke äquidistant in den Bitstrom eingefügt. Die zu diesem Header zugehörigen Seiteninformationen ("Side Information") und Hauptdaten (Main Data) folgen unmittelbar dahinter. Die Länge, d.h. Bitanzahl, für die Hauptdaten ist in jedem Frame gleich. Ein solches Bitstromformat, wie es in Fig. 4 gezeigt wird, wird beispielsweise bei MPEG-Layer 2 oder MPEG-CELP verwendet.
Fig. 5 zeigt ein anderes Bitstromformat mit einer festen Framelänge und einem Backpointer oder Rückwärtszeiger. Bei diesem Bitstromformat sind der Header und die Seiteninformationen wie bei dem Format, das in Fig. 4 gezeigt ist, äquidistant angeordnet. Der Beginn der zugehörigen Hauptdaten erfolgt allerdings nur im Ausnahmefall unmittelbar im Anschluß an einen Header. In den meisten Fällen ist der Beginn in einem der vorherigen Frames. Die Anzahl an Bits, um die der Beginn der Hauptdaten im Bitstrom verschoben ist, wird durch die Seiteninformations-Variable Backpointer übertragen. Das Ende dieser Hauptdaten kann in diesem Frame liegen oder in einem vorherigen Frame. Die Länge der Hauptdaten ist damit nicht mehr konstant. Somit kann die Anzahl der Bits, mit denen ein Block codiert wird, an die Eigenschaften des Signals angepaßt werden. Gleichzeitig kann jedoch eine konstante Bitrate erreicht werden. Diese Technik wird "Bitsparkasse" genannt und vergrößert das theoretische Delay in der Übertragungskette. Ein solches Bitstromformat wird beispielsweise bei MPEG Layer 3 (MP3) eingesetzt. Die Technik der Bitsparkasse ist ebenfalls in dem Standard MPEG Layer 3 beschrieben.
Allgemein gesagt stellt die Bitsparkasse einen Buffer von Bits dar, die eingesetzt werden können, um zum Codieren eines Blocks von zeitlichen Abtastwerten mehr Bits zur Verfügung zu stellen, als eigentlich durch die konstante Ausgangsdatenrate erlaubt sind. Die Technik der Bitsparkasse trägt der Tatsache Rechnung, daß manche Blöcke von Audioabtastwerten mit weniger Bits als durch die konstante Übertragungsrate vorgegeben codiert werden können, so daß sich durch diese Blöcke die Bitsparkasse füllt, während wieder andere Blöcke von Audioabtastwerten psychoakustische Eigenschaften haben, die keine so große Kompression erlauben, so daß für diese Blöcke zum störungsarmen bzw. störungsfreien Codieren die zur Verfügung stehenden Bits eigentlich nicht ausreichen würden. Die benötigten überzähligen Bits werden aus der Bitsparkasse genommen, so daß sich die Bitsparkasse bei solchen Blöcken leert.
Ein solches Audiosignal könnte jedoch auch, wie es in Fig. 6 gezeigt ist, durch ein Format mit variabler Framelänge übertragen werden. Bei dem Bitstromformat "Variable Framelänge", wie es in Fig. 6 dargestellt ist, wird die feste Reihenfolge der Bitstromelemente Header, Seiteninformationen und Hauptdaten wie bei der "Festen Framelänge" eingehalten. Da die Länge der Hauptdaten nicht konstant ist, kann auch hier die Bitsparkassentechnik eingesetzt werden, es werden jedoch keine Backpointer wie in Fig. 5 benötigt. Ein Beispiel für ein BitStromformat, wie es in Fig. 6 dargestellt ist, ist das Transportformat ADTS (Audio Data Transport Stream), wie es im Standard MPEG 2 AAC definiert ist.
Es sei darauf hingewiesen, daß die vorher genannten Codierer alle keine skalierbaren Codierer sind, sondern lediglich einen einzigen Audiocodierer umfassen. In MPEG 4 ist die Kombination verschiedener Codierer/Deco- dierer zu einem skalierbaren Codierer/Decodierer vorgesehen. So ist es möglich und sinnvoll, einen Celp-Sprachcodierer als ersten Codierer mit einem AAC-Codierer für die weitere bzw. die weiteren Skalierungsschichten zu kombinieren und in einem Bitstrom zu verpacken. Der Sinn dieser Kombination besteht darin, daß die Möglichkeit offen steht, entweder alle Skalierungsschichten oder Layer zu decodieren und damit eine bestmögliche Audioqualität zu erreichen, oder auch Teile davon, unter Umständen auch nur die erste Skalierungsschicht mit der entsprechenden eingeschränkten Audioqualität. Gründe für die alleinige Decodierung der untersten Skalierungsschicht können sein, daß wegen zu kleiner Bandbreite des Übertragungskanals der Decodierer nur die erste Skalierungsschicht des Bitstroms erhalten hat. Deswegen werden bei der Übertragung die Anteile der ersten Skalierungsschicht im Bitstrom gegenüber der zweiten und den weiteren Skalierungsschichten bevorrechtigt, wodurch bei Kapazitätsengpässen im Übertragungsnetz die Übertragung der ersten Skalierungsschicht sichergestellt wird, während die zweite Skalierungsschicht eventuell ganz oder teilweise verloren geht.
Ein weiterer Grund kann darin liegen, daß ein Decodierer ein möglichst geringes Codec-Delay erreichen möchte und deswegen nur die erste Skalierungsschicht decodiert. Es sei darauf hingewiesen, daß das Codec-Delay eine Celp-Codecs im allgemeinen signifikant kleiner als das Delay des AAC-Codecs ist.
In MPEG 4 Version 2 ist das Transportformat LATM standardisiert, welches unter anderem auch skalierbare Datenströme übertragen kann.
Im nachfolgenden wird auf Fig. 2a Bezug genommen. Fig. 2a ist eine schematische Darstellung der Abtastwerte des Eingangssignals s(t). Das Eingangssignal kann in verschiedene aufeinanderfolgende Abschnitte 0, 1, 2, 3 eingeteilt werden, wobei jeder Abschnitt eine bestimmte feste Anzahl von zeit- liehen Abtastwerten hat. Üblicherweise verarbeitet der AAC-Codierer 14 (Fig. 1) einen gesamten Abschnitt 0, 1, 2 oder 3, um für diesen Abschnitt ein codiertes Datensignal zu liefern. Der Celp-Codierer 12 (Fig. 1) verarbeitet jedoch üblicherweise eine geringere Menge an zeitlichen Abtastwerten pro Codierungsschritt. So ist in Fig. 2b beispielhaft gezeigt, daß der Celp-Codierer bzw. allgemein gesagt der erste Codierer oder Coder 1 eine Blocklänge hat, die ein Viertel der Blocklänge des zweiten Codierers beträgt. Es sei darauf hingewiesen, daß diese Aufteilung völlig willkürlich ist. Die Blocklänge des ersten Codierers könnte auch halb so groß sein, könnte jedoch auch ein Elftel der Blocklänge des zweiten Codierers betragen. Somit wird der erste Codierer aus dem Abschnitt des Eingangssignals vier Blöcke erzeugen (11, 12, 13, 14), aus denen der zweite Codierer einen Block von Daten liefert. In Fig. 2c ist ein übliches LATM-Bit- stromformat gezeigt.
Ein Superframe kann verschiedene Verhältnisse von Anzahl von AAC-Frames zu Anzahl von CELP-Frames haben, wie es in MPEG 4 tabellarisch dargelegt ist. So kann ein Superframe z. B. einen AAC Block und 1 bis 12 CELP-Blöcke, 3 AAC-Blöcke und 8 CELP-Blöcke aber auch z. B. mehr AAC-Blöcke als CELP-Blöcke je nach Konfiguration aufweisen. Ein LATM-Frame, der einen LATM-Bestimmungsdatenblock hat, umfaßt einen Superframe oder auch mehrere Superframes.
Es wird beispielhaft die Erzeugung des durch den Header 1 eröffneten LATM-Frames beschrieben. Zunächst werden die Ausgangsdatenblöcke 11, 12, 13, 14 des Celp-Codierers 12 (Fig. 1) erzeugt und zwischengespeichert. Parallel dazu wird der Ausgangsdatenblock des AAC-Codierers , der in Fig. 2c mit "1" bezeichnet ist, erzeugt. Dann, wenn der Ausgangsdatenblock des AAC-Codierers erzeugt ist, wird erst der Bestimmungsdatenblock (Header 1) geschrieben. Je nach Konvention kann dann unmittelbar hinter den Header 1 der als erstes erzeugte Ausgangsdatenblock des ersten Codierers, der in Fig. 2c mit 11 bezeichnet ist, geschrieben, d. h. übertragen, werden. Es wird üblicherweise (in Anbetracht geringer erforderlicher Signalisierungsinformationen) zum weiteren Schreiben bzw. Übertragen des Bitstroms ein äquidistanter Abstand der Ausgangsdatenblöcke des ersten Codierers gewählt, wie es in Fig. 2c dargestellt ist. Dies bedeutet, daß nach dem Schreiben bzw. Übertragen des Blocks 11 der zweite Ausgangsdatenblock 12 des ersten Codierers, dann der dritte Ausgangsdatenblock 13 des ersten Codierers und dann der vierte Ausgangsdatenblock 14 des ersten Codierers in äquidistanten Abständen geschrieben bzw. übertragen werden. Der Ausgangsdatenblock 1 des zweiten Codierers wird während der Übertragung in die verbleibenden Lücken eingefüllt. Dann ist ein LATM-Frame fertig geschrieben, d. h. fertig übertragen.
Nachteilig an den in den Figuren 4 bis 6 dargestellten bekannten Bitstromformaten ist die Tatsache, daß dieselben nicht für skalierbare Datenströme geeignet sind.
Ein weiterer Nachteil der bekannten Bitstromformate besteht darin, daß kein Bitstromformat für einen skalierbaren Datenstrom existiert, so daß die Bitsparkassenfunktion für skalierbare Datenströme mit Ausgangsdaten von Codierern mit unterschiedlicher Zeitbasis, insbesondere für die Kombination AAC-Codierer und CELP-Codierer einer skalierbaren Codiervorrichtung derzeit nicht nutzbar gemacht werden kann. Da jedoch eine konstante Übertragungsrate gefordert wird, der AAC-Codierer jedoch Blöcke unterschiedlicher Länge abhängig von den Eigenschaften des codierten Signals ausgibt, kann durchaus der Fall auftreten, daß der AAC-Codierer zur Codierung eines Abschnitts des Zeitsignals mehr Bits als durch die Übertragungsrate vorgegeben, benötigt, während er für einen anderen Abschnitt wieder weniger Bits als durch die Ausgangsdatenrate vorgegeben fordert. Damit werden im letzteren Fall dem AAC-Codierer der skalierbaren Codiervorrichtung die Bits ausgehen, während der AAC-Codierer der skalierbaren Codiervorrichtung im ersteren Fall, um die konstante Ausgangsdatenrate einzuhalten, nicht umhin kommt, hörbare Störungen in das codierte und wieder decodierte Signal einzuführen.
Die Aufgabe der vorliegenden Erfindung besteht darin, ein Verfahren und eine Vorrichtung zum Erzeugen eines skalierbaren Datenstroms zu schaffen, das dazu geeignet ist, daß eine Bitsparkassenfunktion für eine Skalierungsschicht eingesetzt werden kann.
Diese Aufgabe wird durch ein Verfahren nach Patentanspruch 1 oder durch eine Vorrichtung nach Patentanspruch 9 gelöst.
Eine weitere Aufgabe der vorliegenden Erfindung besteht darin, ein Verfahren zum Decodieren eines skalierbaren Datenstroms zu schaffen.
Diese Aufgabe wird durch ein Verfahren nach Patentanspruch 10 oder durch eine Vorrichtung nach Patentanspruch 11 gelöst.
Der vorliegenden Erfindung liegt die Erkenntnis zugrunde, daß von dem bekannten, in Fig. 2c dargelegten Konzept weggegangen werden muß, das darin besteht, daß sämtliche Daten eines Ausgangsdatenblocks des zweiten Codierers zwischen zwei aufeinanderfolgenden LATM-Headern angeordnet sind. Statt dessen wird es zugelassen, daß auch Ausgangsdaten des zweiten Codierers, die einen vorausgehenden Zeitabschnitt des Eingangssignals darstellen, nach einem Bestimmungsdatenblock für den aktuellen Zeitabschnitt geschrieben werden, wobei diese Tatsache bzw. wieviel Daten noch in Übertra- gungsrichtung hinter dem Bestimmungsdatenblock geschrieben werden, durch spezielle ebenfalls zu übertragende Pufferinformationen einem Decodierer signalisiert werden.
Der Decodierer kann dann ohne weiteres, ausgehend von einem Bestimmungsdatenblock und unter Verwendung der Pufferinformationen feststellen, wo die Ausgangsdaten des zweiten Codierers enden, und wo dann die Ausgangsdaten des zweiten Codierers für den aktuellen Zeitabschnitt beginnen, so daß der Decodierer in der Lage ist, die korrespondierenden Ausgangsdatenblöcke des ersten Codierers mit korrespondierenden Ausgangsdatenblöcken des zweiten Codierers in Verbindung zu bringen, um das Signal in allen Schichten wieder zu decodieren, wobei sich der Ausdruck "korrespondierend" darauf bezieht, daß die entsprechenden Daten des ersten und des zweiten Codierers auf den selben Abschnitt des Eingangssignals im Falle von CoreCoderDelay gleich Null (siehe Fig. 1) oder auf um Core Coder Delay verschobenen aktuelle Abschnitte für den ersten und den zweiten Codierer bezogen sind.
Bei einem erfindungsgemäßen Verfahren zum Erzeugen eines skalierbaren Datenstroms aus einem oder mehreren Blöcken von Ausgangsdaten eines ersten Codierers und aus einem oder mehreren Blöcken von Ausgangsdaten eines zweiten Codierers wird daher ein Bestimmungsdatenblock für einen aktuellen Abschnitt des Eingangssignals geschrieben. Darüber hinaus werden die Ausgangsdaten des zweiten Codierers, die einen vorhergehenden Abschnitt des Eingangssignals darstellen, in ϋbertragungsrichtung von einem Codierer zu einem Decodierer hinter den Bestimmungsdatenblock geschrieben. Die Ausgangsdaten des zweiten Codierers, die sich auf den aktuellen Abschnitt des Eingangssignals beziehen, also die zu dem Bestimmungsdatenblock eigentlich gehören, können dann geschrieben werden, wenn die Ausgangsdaten des zweiten Codierers für den vorhergehenden Abschnitt vollständig geschrieben sind. Darüber hinaus werden PufferInformationen in den skalierbaren Datenstrom geschrieben, wobei die Pufferinformationen anzeigen, wie weit sich die Ausgangsdaten des zweiten Codierer für den vorausgehenden Abschnitt hinter dem Bestimmungsdatenblock für den aktuellen Abschnitt erstrecken. Die Ausgangsdaten des ersten Codierers können entweder äquidistant oder nicht in den skalierbaren Datenstrom geschrieben werden, wobei es jedoch, aus Delaygründen, um eine verzögerungsarme Decodierung der ersten Skalierungsschicht alleine, also lediglich der Ausgangsdatenblöcke des ersten Codierers zu ermöglichen, wünschenswert ist, diese Datenblöcke äquidistant und delayoptimiert zu schreiben.
Üblicherweise wird eine Bitsparkasse u. a. durch die maximale Größe der Bitsparkasse definiert, wobei dieser Wert in Fig. 3 mit "Max Bufferfullness" bezeichnet wird. Dieser Wert ist fest und dem Decodierer bekannt. Darüber hinaus wird im Datenstrom der aktuelle Wert der Belegung der Bitsparkasse, der mit "Bufferfullness" bezeichnet wird, übertragen. Die Differenz aus der Variablen Max Bufferfullness und Bufferfullness liefert dann, wenn die vorliegende Erfindung auf einen MPEG 4-Codierer angewendet wird, die Pufferinformationen, wobei, wie es später dargelegt werden wird, in diesem Fall zu berücksichtigen ist, daß unter Umständen in den AAC-Blöcken eingestreute Celp-Blöcke oder Daten anderer Skalierungsschichten nicht berücksichtigt werden dürfen, um den genauen Wert des Beginns der Ausgangsdaten des zweiten Datenblocks hinter dem LATM-Bestimmungsdatenblock zu finden.
Unabhängig von der Funktionalität der Bitsparkasse ermöglicht es das erfindungsgemäße Format jedoch auch, in einem äquidistanten Raster von Bestimmungsdatenblöcken, Ausgangsdatenblöcke variierender Länge des zweiten Codierers zu übertragen. So kann es sinnvoll sein, das Raster für die Bestimmungsdatenblöcke und das Raster für die Ausgangsdatenblöcke des ersten Codierers äquidistant zu wählen, und insbesondere so zu wählen, daß einem Bestimmungsdatenblock immer ein Ausgangsdatenblock des ersten Codierers folgt. Der Ausgangsdatenblock des zweiten Codierers wird dann in die verbleibenden Lücken geschrieben, wobei durch die Pufferinformationen signalisiert wird, wieviel Daten des zweiten Codierers hinter einem Bestimmungsdatenblock zu dem Zeitabschnitt, auf den der Bestimmungsdatenblock hinweist, gehören, oder noch zu dem vorausgehenden zeitlichen Abschnitt des Eingangssignals zu zählen sind, damit der Decodierer eindeutig und zweifelsfrei eine Zuordnung zwischen Ausgangsdatenblöcken des ersten Codierers und einem Ausgangsdatenblock des zweiten Codierers für einen Zeitabschnitt des Eingangssignals schaffen kann. Ein Vorteil der vorliegenden Erfindung besteht ferner darin, daß das Signalisieren des Ausgangsdatenblocks hinter dem Bestimmungsdatenblock ohne weiteres mit einem Signalisieren von Ausgangsdatenblöcken des ersten Codierers vor dem Bestimmungsdatenblock für den aktuellen Zeitabschnitt kombiniert werden kann, um eine verzögerungsarme Decodierung lediglich der ersten Skalierungsschicht zu ermöglichen.
Der erfindungsgemäße skalierbare Datenstrom ist besonders für EchtZeitanwendungen von Nutzen, kann jedoch genauso auch für Nicht-Echtzeitanwendungen eingesetzt werden.
Bevorzugte Ausführungsbeispiele der vorliegenden Erfindung werden nachfolgend bezugnehmend auf die beiliegenden Zeichnungen detailliert erläutert. Es zeigen:
Fig. 1 einen skalierbaren Codierer gemäß MPEG 4;
Fig. 2a eine schematische Darstellung eines Eingangssignals, das in aufeinanderfolgende Zeitabschnitte eingeteilt ist;
Fig. 2b eine schematische Darstellung eines Eingangssignals, das in aufeinanderfolgende Zeitabschnitte eingeteilt ist, wobei das Verhältnis der Blocklänge des ersten Codierers zu der Blocklänge des zweiten Codierers dargestellt ist;
Fig. 2c eine schematische Darstellung eines skalierbaren Datenstroms mit hoher Verzögerung bei der Decodierung der ersten Skalierungsschicht;
Fig. 2d eine schematische Darstellung eines skalierbaren Datenstroms mit niedriger Verzögerung bei der Decodierung der ersten Skalierungsschicht;
Fig. 2e ein Bitstromformat gemäß der vorliegenden Erfin- düng, in dem hinter dem Bestimmungsdatenblock für einen aktuellen Abschnitt noch Ausgangsdaten des zweiten Codierers aus einem vorhergehenden Zeitabschnitt angeordnet sind;
Fig. 3 eine detaillierte Darstellung des erfindungsgemäßen skalierbaren Datenstromes am Beispiel eines Celp- Codierers als erster Codierer und eines AAC-Codierers als zweiter Codierer mit Bitsparkassenfunktion.
Fig. 4 ein Beispiel für ein Bitstromformat mit fester Framelänge;
Fig. 5 ein Beispiel für ein Bitstromformat mit fester Framelänge und Back-Pointer; und
Fig. 6 ein Beispiel eines Bitstromformats mit variabler Framelänge.
Im nachfolgenden wird auf Fig. 2d im Vergleich zu Fig. 2c eingegangen, um einen Bitstrom mit niedriger Verzögerung für die erste Skalierungsschicht zu erläutern. Genauso wie in Fig. 2c enthält der skalierbare Datenstrom aufeinanderfolgende Bestimmungsdatenblöcke, die als Header 1 und Header 2 bezeichnet sind. Bei MPEG 4 sind die Bestimmungsdatenblöcke LATM-Header. In Übertragungsrichtung von einem Encoder zu einem Decodierer, die in Fig. 2d mit einem Pfeil 202 dargestellt ist, findet sich hinter dem LATM-Header 200 die von links oben nach rechts unten schraffierten Teile des Ausgangsdatenblocks des AAC-Codierers, die in verbleibende Lücken zwischen Ausgangsdatenblöcken des ersten Codierers eingetragen sind.
Ferner finden sich im Unterschied zu Fig. 2c nun jedoch in dem durch den LATM-Header 200 begonnenen Frame nicht mehr nur Ausgangsdatenblöcke des ersten Codierers, die in diesen Frame gehören, wie z.B. die Ausgangsdatenblöcke 13 und 14, sondern auch die Ausgangsdatenblöcke 21 und 22 des nachfolgenden Abschnitts von Eingangsdaten. Anders ausgedrückt sind bei dem in Fig. 2d gezeigten Beispiel die beiden Ausgangsdatenblöcke des ersten Codierers, die mit 11 und 12 bezeichnet sind, in Übertragungsrichtung (Pfeil 202) vor dem LATM-Header 200 im Bitström vorhanden. Bei dem in Fig. 2d gezeigten Beispiel deuten die Offset-lnformationen 204 auf einen Offset der Ausgangsdatenblöcke des ersten Codierers von zwei Ausgangsdatenblöcken hin. Wenn Fig. 2d mit Fig. 2c verglichen wird, so ist zu erkennen, daß der Decodierer bereits die unterste Skalierungsschicht genau um eine diesem Offset entsprechende Zeit früher decodieren kann als im Fall von Fig. 2c, wenn der Decodierer lediglich an der ersten Skalierungsschicht interessiert ist. Die Offset-lnformationen, die z. B. in Form eines "Core Frame Offset" signalisiert werden können, dienen dazu, die Position des ersten Ausgangsdatenblocks 11 im Bitstrom zu bestimmen.
Für den Fall von Core Frame Offset = Null ergibt sich der in Fig. 2c bezeichnete Bitstrom. Ist jedoch Core Frame Offset > Null, so wird der entsprechende Ausgangsdatenblock des ersten Codierers 11 um die Anzahl Core Frame Offset an Ausgangsdatenblöcken des ersten Codierers früher übertragen. Anders ausgedrückt ergibt sich das Delay zwischen dem ersten Ausgangsdatenblock des ersten Codierers nach dem LATM-Header und dem ersten AAC-Frame aus Core Coder Delay (Fig. 1) + Core Frame Offset x Core-Blocklänge (Blocklänge des Coders 1 in Fig. 2b). Wie aus dem Vergleich von Fig. 2c und 2d deutlich wird, werden für Core Frame Offset = Null (Fig. 2c) nach dem LATM-Header 200 die Ausgangsdatenblöcke 11 und 12 des ersten Codierers übertragen. Durch die Übertragung von Core Frame Offset = 2 können die Ausgangsdatenblöcke 13 und 14 nach dem LATM-Header 200 folgen, wodurch die Verzögerung bei reiner Celp-Decodierung, also Decodierung der ersten Skalierungsschicht, um zwei Celp-Blocklängen verringert wird. Optimal wäre im Beispiel ein Offset von drei Blöcken. Ein Offset von einem oder zwei Blöcken bringt jedoch ebenfalls bereits einen Delayvorteil. Durch diesen Bitstromaufbau ist es möglich, daß der Celp- Codierer den erzeugten Celp-Block unmittelbar nach dem Codieren übertragen kann. In diesem Fall wird dem Celp-Codierer kein zusätzliches Delay durch den Bitstrommultiplexer (20) zugefügt. Somit wird für diesen Fall zu dem Celp-Delay kein zusätzliches Delay durch die skalierbare Kombination hinzugefügt, so daß das Delay minimal wird.
Es wird darauf hingewiesen, daß der in Fig. 2d gezeigte Fall lediglich beispielhaft ist. So sind verschiedene Verhältnisse der Blocklänge des ersten Codierers zu der Blocklänge des zweiten Codierers möglich, die z. B. von 1:2 bis zu 1:12 variieren können oder aber auch andere Verhältnisse einnehmen können, wobei Verhältnisse größer oder kleiner Eins auftreten können.
Dies heißt im Extremfall (1:12 für MPEG 4 CELP/AAC), daß für denselben Zeitabschnitt des Eingangssignals, für den der AAC-Codierer einen Ausgangsdatenblock erzeugt, der Celp-Codierer zwölf Ausgangsdatenblöcke erzeugt. Der Verzögerungs- Vorteil durch den Datenstrom, der in Fig. 2d gezeigt ist, gegenüber dem Datenstrom, der in Fig. 2c gezeigt ist, kann in diesem Fall durchaus in Größenordnungen von einer viertel bis zu einer halben Sekunde kommen. Dieser Vorteil wird sich um so mehr erhöhen, je größer das Verhältnis zwischen Blocklänge des zweiten Codierers und Blocklänge des ersten Codierers wird, wobei im Falle des AAC-Codierers als zweiter Codierer eine möglichst große Blocklänge aufgrund des dann günstigeren Verhältnisses zwischen Nutzinformationen zu Seiteninformationen angestrebt wird, wenn es das zu codierende Signal zuläßt.
Im nachfolgenden wird auf Fig. 2e Bezug genommen. Im Unterschied zu Fig. 2d, in der bereits die Offset-Funktion, also die Verschiebung der Ausgangsdatenblöcke des ersten Codierers bezüglich eines Bestimmungsdatenblocks dargestellt sind, wird in Fig. 2e die erfindungsgemäße Verschiebung der Ausgangsdatenblöcke des zweiten Codierers bezüglich des durch die Bestimmungsdatenblöcke gegebenen Rasters dargestellt. Die Anordnung der Ausgangsdatenblöcke des ersten Codierers, die mit 11, 12, 13, 14, 21, 22, 23, 24, 31 in Fig. 2e bezeichnet sind, ist gegenüber Fig. 2d unverändert. Während in Fig. 2d keine Bitsparkassenfunktion möglich ist, bzw. , wenn die Bestimmungsdatenblöcke in einem festen Raster sein sollen, keine Ausgangsdatenblöcke veränderlicher Länge für den zweiten Codierer eingesetzt werden können, ist dies bei Fig. 2e nunmehr gemäß der vorliegenden Erfindung möglich.
Hierzu werden die Daten des Ausgangsdatenblocks des zweiten Codierers des vorausgehenden Abschnitts, der mit "0" in den Figuren 2a bis 2e bezeichnet ist, in Übertragungsrichtung von einem Codierer zu einem Decodierer hinter den LATM- Header 200 geschrieben, bis der skalierbare Codierer sämtliche Daten des vorausgehenden Abschnitts in den Bitstrom geschrieben hat. Erst dann wird an einer Ubergangsgrenze 220 damit begonnen, die Ausgangsdaten des zweiten Codierers für den aktuellen Abschnitt des Eingangssignals in den Bitstrom zu schreiben. So kann die Übergangsgrenze 220 mit einer Grenze eines Celp-Datenblocks zusammenfallen oder auch nicht. Je nach Signalisierung kann entweder der Abstand vom Ende des Bestimmungsdatenblocks bis zur Übergangsgrenze 220 oder der Abstand vom Anfang des Bestimmungsdatenblocks bis zur Übergangsgrenze 220 oder aber der Abstand von der hinteren Grenze des Celp-Blocks 13 bis zur Übergangsgrenze 220 mit oder ohne Länge der Celp-Blöcke 13, 14 und/oder der Länge des Bestimmungsdatenblocks als Pufferinformationen signalisiert werden. Die letztere Variante wird bezugnehmend auf Fig. 3 noch näher dargestellt.
Erfindungsgemäß wird es im Fall der Anwendung auf einen skalierbaren Codierer bevorzugt, keine eigenen Seiteninformationen zur Signalisierung der Pufferinformationen vorzusehen, sondern hierzu den bereits ohnehin im Bitstrom übertragenen Wert Bufferfullness zu verwenden, wobei die Länge des mit "Pufferinformationen" in Fig. 2e bezeichneten Zeigers, der in Fig. 3 mit dem Bezugszeichen 314 gekennzeichnet ist, genau gleich der Differenz zwischen Max Bufferfullness und Bufferfullness ist, wenn die Länge der Bestimmungsdatenblöcke und die Länge eventuell vorhandener Celp-Blöcke sowie evtl. vorhandener weiterer Skalierungsschichten unberücksichtigt bleiben, wie es bezugnehmend auf Fig. 3 durch den unterbrochen gezeichneten Pfeil dargestellt ist.
Im nachfolgenden wird auf Fig. 3 eingegangen, welche zu Fig. 2 ähnlich ist, jedoch die besondere Implementierung am Beispiel von MPEG 4 darstellt. In der ersten Zeile ist wieder ein aktueller Zeitabschnitt schraffiert gezeigt. In der zweiten Zeile ist die Fensterung, die beim AAC-Codierer verwendet wird, schematisch dargestellt. Wie es bekannt ist, wird ein Overlap-And-Add von 50 % verwendet, so daß ein Fenster üblicherweise die doppelte Länge von zeitlichen Abtastwerten hat wie der aktuelle Zeitabschnitt, der in der obersten Zeile von Fig. 3 schraffiert dargestellt ist. In Fig. 3 ist ferner die Verzögerung tdip eingezeichnet, die dem Block 26 von Fig. 1 entspricht und die im gewählten Beispiel eine Größe von 5/8 der Blocklänge hat. Typischerweise wird eine Blocklänge des aktuellen Zeitabschnitts von 960 Abtastwerten verwendet, so daß die Verzögerung tdip von 5/8 der Blocklänge 600 Abtastwerte beträgt. Beispielsweise liefert der AAC-Codierer einen Bitstrom von 24 kBit/s, während der darunter schematisch dargestellte Celp-Codierer einen Bitstrom mit einer Rate von 8 kBit/s liefert. Dies resultiert in einer Gesamtbitrate von 32 kBit/s.
Wie es aus Fig. 3 ersichtlich ist, entsprechen die Ausgangsdatenblöcke Null und Eins des Celp-Codierers dem aktuellen Zeitabschnitt des ersten Codierers. Der Ausgangsdatenblock mit der Nummer 2 des Celp-Codierers entspricht bereits dem nächsten Zeitabschnitt. Dasselbe trifft für den Celp-Block mit der Nummer 3 zu. In Fig. 3 ist ferner die Verzögerung der Downsampling-Stufe 28 und des Celp-Codierers 12 durch einen Pfeil eingezeichnet, der mit dem Bezugszeichen 302 dargestellt ist. Daraus ergibt sich als die Verzögerung, die durch die Stufe 34 eingestellt werden muß, damit an der Subtrahierstelle 40 von Fig. 1 gleiche Verhältnisse vorliegen, die Verzögerung, die durch Core Coder Delay bezeichnet ist und mit einem Pfeil 304 in Fig. 3 veranschaulicht ist. Diese Verzögerung kann alternativ auch durch Block 26 erzeugt werden. So gilt beispielsweise:
Core Coder Delay =
= tdip - Celp Encoder Delay - Downsampling Delay =
= 600 - 120 - 117 = 363 Abtastwerte.
Für den Fall ohne Bitsparkassenfunktion bzw. für den Fall, daß die Bitsparkasse (Bit Mux Outputbuffer) voll ist, was durch die Variable Bufferfullness = Max angezeigt ist, ergibt sich der in Fig. 2d gezeichnete Fall. Im Unterschied zu Fig. 2d, bei der vier Ausgangsdatenblöcke des ersten Codierers entsprechend einem Ausgangsdatenblock des zweiten Codierers erzeugt werden, wird bei Fig. 3 für einen Ausgangsdatenblock des zweiten Codierers, welcher in den beiden letzten Zeilen von Fig. 3 schwarz gezeichnet ist, zwei Ausgangsdatenblöcke des Celp-Codierers, die mit "0" und "1" bezeichnet sind, erzeugt. Erfindungsgemäß wird nun jedoch hinter einen ersten LATM-Header 306 nicht mehr der Ausgangsdatenblock des Celp-Codierers mit der Nummer "0" geschrieben, sondern der Ausgangsdatenblock des Celp-Codierers mit der Nummer "Eins", zumal der Ausgangsdatenblock mit der Nummer "Null" bereits zum Decodierer übertragen worden ist. In dem für die Celp-Datenblöcke vorgesehenen äquidistanten Rasterabstand folgt dann dem Celp-Block 1 der Celp-Block 2 für den nächsten Zeitabschnitt, wobei dann zur Fertigstellung eines Frames der Rest der Daten des Ausgangsdatenblocks des AAC-Codierers in den Datenstrom geschrieben wird, bis wieder ein nächster LATM-Header 308 für den nächsten Zeitabschnitt folgt. Die vorliegende Erfindung kann, wie es in der letzten Zeile von Fig. 3 dargestellt ist, einfach mit der Bitsparkassenfunktion kombiniert werden. Für den Fall, daß die Variable "Bufferfullness", die die Füllung der Bitsparkasse anzeigt, kleiner als der maximale Wert ist, bedeutet dies, daß der AAC-Frame für den unmittelbar vorhergehenden Zeitabschnitt mehr Bits als eigentlich zulässig benötigt hat. Dies bedeutet, daß hinter dem LATM-Header 306 die Celp-Frames wie vorher geschrieben werden, daß jedoch zunächst der Ausgangsdatenblock oder die Ausgangsdatenblöcke des AAC-Codierers aus vorhergehenden Zeitabschnitten in den Bitstrom geschrieben werden müssen, bevor mit dem Schreiben des Ausgangsdatenblocks des AAC-Codierers für den aktuellen Zeitabschnitt begonnen werden kann. Aus dem Vergleich der beiden letzten Zeilen von Fig. 3, die mit "1" und "2" gekennzeichnet sind, ist zu sehen, daß die Bitsparkassenfunktion unmittelbar auch zu einer Verzögerung im Codierer für den AAC-Frame führt. So sind die Daten für den AAC-Frame des aktuellen Zeitabschnitts, die in Fig. 3 mit 310 bezeichnet sind, zwar genau zum gleichen Zeitpunkt wie im Fall "1" vorhanden, können jedoch erst dann in den Bitstrom geschrieben werden, nachdem die AAC-Daten 312 für den unmittelbar vorhergehenden Zeitabschnitt in den Bitstrom geschrieben worden sind. In Abhängigkeit von dem Bitsparkassenstand des AAC-Codierers verschiebt sich somit die Anfangsposition des AAC-Frames.
Der Bitsparkassenstand wird gemäß MPEG 4 im Element StreamMuxConfig durch die Variable "Bufferfullness" übertragen. Die Variable Bufferfullness berechnet sich aus der Variablen Bitreservoir geteilt durch das 32fache der gerade vorhandenen Kanalanzahl der Audiokanäle.
Es sei darauf hingewiesen, daß es sich bei dem Zeiger, der in Fig. 3 mit dem Bezugszeichen 314 gekennzeichnet ist, und dessen Länge = max Bufferfullness - Bufferfullness ist, um einen Vorwärtszeiger handelt, der gewissermaßen in die Zukunft zeigt, während es sich bei dem in Fig. 5 gezeichneten Zeiger um einen Rückwärtszeiger handelt, der ge- wissermaßen in die Vergangenheit zeigt. Dies liegt daran, daß gemäß vorliegendem Ausführungsbeispiel der LATM-Header immer dann in den Bitström geschrieben wird, nachdem der aktuelle Zeitabschnitt durch den AAC-Codierer verarbeitet worden ist, obgleich ggf. noch AAC-Daten aus vorherigen Zeitabschnitten in den Bitstrom zu schreiben sind.
Es sei ferner darauf hingewiesen, daß der Zeiger 314 absichtlich unterhalb des Celp-Blocks 2 unterbrochen gezeichnet ist, da er die Länge des Celp-Blocks 2 genauso wie die Länge des Celp-Blocks 1 nicht berücksichtigt, da diese Daten selbstverständlich nichts mit der Bitsparkasse des AAC-Codierers zu tun haben. Ferner werden keinerlei Header-Daten und Bits von gegebenenfalls vorhandenen weiteren Layern berücksichtigt.
Im Decodierer wird zunächst aus dem Bitstrom eine Extraktion der Celp-Frames vorgenommen, was ohne weiteres möglich ist, da dieselben beispielsweise äquidistant angeordnet sind und eine feste Länge haben.
Im LATM-Header können jedoch ohnehin Länge und Abstand aller CELP-Blöcke signalisiert werden, so daß in jedem Fall eine unmittelbare Decodierung möglich ist.
Damit werden die gewissermaßen durch den Celp-Block 2 getrennten Teile der Ausgangsdaten des AAC-Codierers des unmittelbar vorhergehenden Zeitabschnitts wieder aneinandergefügt, und der LATM-Header 306 rückt gewissermaßen an den Beginn des Zeigers 314, so daß der Decodierer unter Kenntnis der Länge des Zeigers 314 weiß, wann nunmehr die Daten des unmittelbar vorhergehenden Zeitabschnitts zu Ende sind, um dann, wenn diese Daten vollständig eingelesen sind, den unmittelbar vorhergehenden Zeitabschnitt zusammen mit den für denselben vorhandenen Celp-Datenblöcken mit voller Audioqualität decodieren zu können.
Im Gegensatz zu dem in Fig. 2c gezeigten Fall, bei dem einem LATM-Header sowohl die Ausgangsdatenblöcke des ersten Codierers als auch der Ausgangsdatenblock des zweiten Codierers folgt, kann nun einerseits durch die Variable Core Frame Offset eine Verschiebung von Ausgangsdatenblöcken des ersten Codierers nach vorne im Bitstrom erfolgen, während durch den Pfeil 314 (max Bufferfullness - Bufferfullness) eine Verschiebung des Ausgangsdatenblocks des zweiten Codierers nach hinten im skalierbaren Datenstrom erreicht werden kann, so daß die Bitsparkassenfunktion auch im skalierbaren Datenstrom auf einfache und sichere Art und Weise implementiert werden kann, während das Grundraster des BitStroms durch die aufeinanderfolgende LATM-Bestimmungsdatenblöcke beibehalten wird, die immer dann geschrieben werden, wenn der AAC-Codierer einen Zeitabschnitt codiert hat, und die daher als Bezugspunkt dienen können, auch wenn, wie es in Fig. 3 in der letzten Zeile gezeigt ist, ein Großteil der Daten in dem durch einen LATM-Header bezeichneten Frame einerseits vom nächsten Zeitabschnitt stammen (hinsichtlich der Celp- Frames) oder aber von unmittelbar vorhergehenden Zeitabschnitten stammen (hinsichtlich des AAC-Frames), wobei die jeweiligen Verschiebungen jedoch durch die zwei im Bitstrom zusätzlich zu übertragenden Variablen einem Decodierer mitgeteilt werden.

Claims

Patentansprüche
1. Verfahren zum Erzeugen eines skalierbaren Datenstroms aus einem oder mehreren Blöcken von Ausgangsdaten eines ersten Codierers (12) und aus einem oder mehreren Blöcken von Ausgangsdaten eines zweiten Codierers (14), wobei der eine oder die mehreren Blöcke von Ausgangsdaten des ersten Codierers ( 12 ) zusammen eine Anzahl von Abtastwerten des Eingangssignals für den ersten Codierer darstellen, die einen aktuellen Abschnitt des Eingangssignals für den ersten Codierer bilden, und wobei der eine Block oder die mehreren Blöcke von Ausgangsdaten des zweiten Codierers (14) zusammen eine Anzahl von Abtastwerten des Eingangssignals für den zweiten Codierer darstellen, wobei die Anzahl von Abtastwerten für den zweiten Codierer einen aktuellen Abschnitt des Eingangssignals für den zweiten Codierer bildet, wobei die Anzahl von Abtastwerten für den ersten Codierer und die Anzahl von Abtastwerten für den zweiten Codierer gleich sind, und wobei die aktuellen Abschnitte für den ersten und den zweiten Codierer identisch sind oder um eine Zeitdauer (34) zueinander verschoben sind, mit folgenden Schritten:
Schreiben eines Bestimmungsdatenblocks (306) für den aktuellen Abschnitt des Eingangssignals für den ersten oder den zweiten Codierer;
Schreiben von Ausgangsdaten (312) des zweiten Codierers, die einen vorhergehenden Abschnitt des Eingangssignals für den zweiten Codierer darstellen, in Übertragungsrichtung von einem Codierer zu einem Decodierer hinter den Bestimmungsdatenblock ( 306 ) ;
Schreiben von Ausgangsdaten (310) des zweiten Codierers, die den aktuellen Abschnitt des Eingangssignals für den zweiten Codierer darstellen, wenn die Ausgangsdaten des zweiten Codierers für den vorhergehenden Abschnitt des Eingangssignals geschrieben sind; Schreiben von Pufferinformationen (314) in den skalierbaren Datenstrom, wobei die Pufferinformationen anzeigen, wie weit sich die Ausgangsdaten des zweiten Codierers für den vorausgehenden Abschnitt für den zweiten Codierer hinter den Bestimmungsdatenblock erstrecken; und
Schreiben des einen oder der mehreren Blöcke der Ausgangsdaten des ersten Codierers (12) in den skalierbaren Datenstrom.
2. Verfahren nach Anspruch 1,
bei dem die Längen der Blöcke von Ausgangsdaten des zweiten Codierers für gleichlange Abschnitte des Eingangssignals unterschiedlich sind, wobei die Längen der Blöcke von Ausgangsdaten von Signaleigenschaften des Eingangssignals abhängen,
bei dem der eine oder die mehreren Blöcke der Ausgangsdaten des ersten Codierers für gleichlange Abschnitte des Eingangssignals gleich lang sind, und
bei dem die Übertragungsrate des Bitstroms konstant ist.
3. Verfahren nach Anspruch 1 oder 2,
bei dem der zweite Codierer (14) eine Bitsparkassenfunktion aufweist, wobei die maximale Größe der Bitsparkasse durch Maximal-Puffergrößeninformationen gegeben ist, und wobei der aktuelle Stand der Bitsparkasse durch Aktuell- Pufferinformationen gegeben ist,
bei dem die Pufferinformationen (314) die Aktuell-Pufferinformationen sind, und
bei dem die Größe, wie weit sich die Ausgangsdaten des zweiten Codierers für den vorhergehenden Zeitabschnitt hinter den Bestimmungsdatenblock (306) erstrecken, aus der Differenz zwischen den Maximal-Puffergrößeninformationen und den Aktuell-Pufferinformationen ableitbar ist.
4. Verfahren nach einem der vorhergehenden Ansprüche,
bei dem das Schreiben von Ausgangsdaten des ersten Codierers so durchgeführt wird, daß ein Block von Ausgangsdaten des ersten Codierers unmittelbar hinter einem Bestimmungsdatenblock (306) angeordnet ist, und
bei dem die Länge dieses Bestimmungsdatenblocks (306) sowie die Länge von vorhandenen Ausgangsdatenblöcken des ersten Codierers sowie gegebenenfalls vorhandene Daten weiterer Skalierungsschichten bei der Bestimmung der Größe, wie weit sich die Ausgangsdaten des zweiten Codierers hinter den Bestimmungsdatenblock erstrecken, unter Verwendung der Aktuell-Pufferinformationen und der Maximal-Puffergrößeninformationen ignoriert werden.
5. Verfahren nach einem der vorhergehenden Ansprüche,
bei dem die Einrichtung (20) zum Schreiben des einen oder der mehreren Blöcke von Ausgangsdaten des ersten Codierers ausgebildet ist, um die Blöcke von Ausgangsdaten des ersten Codierers äquidistant in den skalierbaren Datenstrom zu schreiben.
6. Verfahren nach einem der vorhergehenden Ansprüche,
bei dem der erste Codierer (12) ein Celp-Codierer ist,
bei dem der zweite Codierer (14) ein AAC-Codierer ist, und
bei dem der Bestimmungsdatenblock ein LATM-Header gemäß MPEG 4 ist.
7. Verfahren nach einem der vorhergehenden Ansprüche, bei dem der zumindest eine Block von Ausgangsdaten des zweiten Codierers (14) und der zumindest einen Block von Ausgangsdaten des ersten Codierers (12) Nutzdaten in einem Superframe sind, der neben den Nutzdaten genau einen Be- stimmungsdatenblock aufweist.
8. Verfahren nach einem der vorhergehenden Ansprüche,
bei dem im Schritt des Schreibens der Blöcke von Ausgangsdaten des ersten Codierers zumindest ein Block von Ausgangsdaten des ersten Codierers für den aktuellen Abschnitt des Eingangssignals für den ersten Codierer in Übertragungsrichtung vor dem Bestimmungsdatenblock für den aktuellen Zeitabschnitt geschrieben wird.
9. Vorrichtung zum Erzeugen eines skalierbaren Datenstroms aus einem oder mehreren Blöcken von Ausgangsdaten eines ersten Codierers (12) und aus einem oder mehreren Blöcken von Ausgangsdaten eines zweiten Codierers (14), wobei der eine oder die mehreren Blöcke von Ausgangsdaten des ersten Codierers (12) zusammen eine Anzahl von Abtastwerten des Eingangssignals für den ersten Codierer darstellen, die einen aktuellen Abschnitt des Eingangssignals für den ersten Codierer bilden, und wobei der eine Block oder die mehreren Blöcke von Ausgangsdaten des zweiten Codierers (14) zusammen eine Anzahl von Abtastwerten des Eingangssignals für den zweiten Codierer darstellen, wobei die Anzahl von Abtastwerten für den zweiten Codierer einen aktuellen Abschnitt des Eingangssignals für den zweiten Codierer bildet, wobei die Anzahl von Abtastwerten für den ersten Codierer und die Anzahl von Abtastwerten für den zweiten Codierer gleich sind, und wobei die aktuellen Abschnitte für den ersten und den zweiten Codierer identisch sind oder um eine Zeitdauer (34) zueinander verschoben sind, mit folgenden Merkmalen: einer Einrichtung zum Schreiben eines Bestimmungsdatenblocks (306) für den aktuellen Abschnitt des Eingangssignals für den ersten oder den zweiten Codierer;
einer Einrichtung zum Schreiben von Ausgangsdaten (312) des zweiten Codierers, die einen vorhergehenden Abschnitt des Eingangssignals für den zweiten Codierer darstellen, in Übertragungsrichtung von einem Codierer zu einem Decodierer hinter den Bestimmungsdatenblock (306);
einer Einrichtung zum Schreiben von Ausgangsdaten (310) des zweiten Codierers, die den aktuellen Abschnitt des Eingangssignals für den zweiten Codierer darstellen, wenn die Ausgangsdaten des zweiten Codierers für den vorhergehenden Abschnitt des Eingangssignals geschrieben sind;
einer Einrichtung zum Schreiben von Pufferinformationen (314) in den skalierbaren Datenstrom, wobei die Pufferinformationen anzeigen, wie weit sich die Ausgangsdaten des zweiten Codierers für den vorausgehenden Abschnitt für den zweiten Codierer hinter den Bestimmungsdatenblock erstrecken; und
einer Einrichtung zum Schreiben des einen oder der mehreren Blöcke der Ausgangsdaten des ersten Codierers (12) in den skalierbaren Datenstrom.
10. Verfahren zum Decodieren eines skalierbaren Datenstroms aus einem oder mehreren Blöcken von Ausgangsdaten eines ersten Codierers (12) und aus einem oder mehreren Blöcken von Ausgangsdaten eines zweiten Codierers (14), wobei der eine oder die mehreren Blöcke von Ausgangsdaten des ersten Codierers (12) zusammen eine Anzahl von Abtastwerten des Eingangssignals für den ersten Codierer darstellen, die einen aktuellen Abschnitt des Eingangssignals für den ersten Codierer bilden, und wobei der eine Block oder die mehreren Blöcke von Ausgangsdaten des zweiten Codierers (14) zusammen eine Anzahl von Ab- tastwerten des Eingangssignals für den zweiten Codierer darstellen, wobei die Anzahl von Abtastwerten für den zweiten Codierer einen aktuellen Abschnitt des Eingangssignals für den zweiten Codierer bildet, wobei die Anzahl von Abtastwerten für den ersten Codierer und die Anzahl von Abtastwerten für den zweiten Codierer gleich sind, und wobei die aktuellen Abschnitte für den ersten und den zweiten Codierer identisch sind oder um eine Zeitdauer (34) zueinander verschoben sind, wobei der skalierbare Datenstrom einen Bestimmungsdatenblock für den aktuellen Abschnitt für den ersten oder zweiten Codierer, Ausgangsdaten des zweiten Codierers für einen vorhergehenden Abschnitt des Eingangssignals in Übertragungsrichtung hinter dem Bestimmungsdatenblock und Pufferinformationen aufweist, die anzeigen, wie weit sich die Ausgangsdaten des zweiten Codierers für den vorausgehenden Abschnitt hinter den Bestimmungsdatenblock erstrecken, mit folgenden Schritten:
Lesen des Bestimmungsdatenblocks (306) für den aktuellen Abschnitt des Eingangssignals für den ersten oder zweiten Codierer;
Lesen der Ausgangsdaten des ersten Codierers für den aktuellen Abschnitt des ersten Codierers (12);
Lesen der Pufferinformationen (314);
Lesen der Ausgangsdaten (310) des zweiten Codierers für den aktuellen Abschnitt ausgehend von einer durch die Pufferinformationen (314) angezeigten Stelle im skalierbaren Datenstrom; und
Decodieren der Ausgangsdaten (310) des zweiten Codierers und der Ausgangsdaten des ersten Codierers, um ein decodiertes Signal zu erhalten.
11. Vorrichtung zum Decodieren eines skalierbaren Daten- Stroms aus einem oder mehreren Blöcken von Ausgangsdaten eines ersten Codierers (12) und aus einem oder mehreren Blöcken von Ausgangsdaten eines zweiten Codierers (14), wobei der eine oder die mehreren Blöcke von Ausgangsdaten des ersten Codierers (12) zusammen eine Anzahl von Abtastwerten des Eingangssignals für den ersten Codierer darstellen, die einen aktuellen Abschnitt des Eingangssignals für den ersten Codierer bilden, und wobei der eine Block oder die mehreren Blöcke von Ausgangsdaten des zweiten Codierers ( 14 ) zusammen eine Anzahl von Abtastwerten des Eingangssignals für den zweiten Codierer darstellen, wobei die Anzahl von Abtastwerten für den zweiten Codierer einen aktuellen Abschnitt des Eingangssignals für den zweiten Codierer bildet, wobei die Anzahl von Abtastwerten für den ersten Codierer und die Anzahl von Abtastwerten für den zweiten Codierer gleich sind, und wobei die aktuellen Abschnitte für den ersten und den zweiten Codierer identisch sind oder um eine Zeitdauer (34) zueinander verschoben sind, wobei der skalierbare Datenstrom einen Bestimmungsdatenblock für den aktuellen Abschnitt für den ersten oder zweiten Codierer, Ausgangsdaten des zweiten Codierers für einen vorhergehenden Abschnitt des Eingangssignals in Übertragungsrichtung hinter dem Bestimmungsdatenblock und Pufferinformationen aufweist, die anzeigen, wie weit sich die Ausgangsdaten des zweiten Codierers für den vorausgehenden Abschnitt hinter den Bestimmungsdatenblock erstrecken, mit folgenden Merkmalen:
einem Bitstromdemultiplexer, der ausgebildet ist, um folgende Schritte durchführen zu können:
Lesen des Bestimmungsdatenblocks (306) für den aktuellen Abschnitt des Eingangssignals für den ersten oder zweiten Codierer;
Lesen der Ausgangsdaten des ersten Codierers für den aktuellen Abschnitt des ersten Codierers (12); Lesen der Pufferinformationen (314);
Lesen der Ausgangsdaten (310) des zweiten Codierers für den aktuellen Abschnitt ausgehend von einer durch die Pufferinformationen (314) angezeigten Stelle im skalierbaren Datenstrom; und
einer Einrichtung zum Decodieren der Ausgangsdaten (310) des zweiten Codierers und der Ausgangsdaten des ersten Codierers, um ein decodiertes Signal zu erhalten.
PCT/EP2002/000295 2001-01-18 2002-01-14 Verfahren und vorrichtung zum erzeugen eines skalierbaren datenstroms und verfahren und vorrichtung zum decodieren eines skalierbaren datenstroms unter berücksichtigung einer bitsparkassenfunktion Ceased WO2002058051A2 (de)

Priority Applications (9)

Application Number Priority Date Filing Date Title
JP2002558258A JP3890298B2 (ja) 2001-01-18 2002-01-14 スケーラブルデータストリームを生成する方法と装置およびスケーラブルデータストリームを復号化する方法と装置
EP02708282A EP1354314B1 (de) 2001-01-18 2002-01-14 Verfahren und vorrichtung zum erzeugen eines skalierbaren datenstroms und verfahren und vorrichtung zum decodieren eines skalierbaren datenstroms unter berücksichtigung einer bitsparkassenfunktion
HK03109020.2A HK1056790B (en) 2001-01-18 2002-01-14 Method and device for producing a scalable data stream, and method and device for decoding a scalable data stream while taking a bit bank function into account
AT02708282T ATE272884T1 (de) 2001-01-18 2002-01-14 Verfahren und vorrichtung zum erzeugen eines skalierbaren datenstroms und verfahren und vorrichtung zum decodieren eines skalierbaren datenstroms unter berücksichtigung einer bitsparkassenfunktion
CA002434783A CA2434783C (en) 2001-01-18 2002-01-14 Method and device for generating a scalable data stream and method and device for decoding a scalable data stream with provision for a bit savings bank function
KR10-2003-7009508A KR100516985B1 (ko) 2001-01-18 2002-01-14 비트 세이빙 뱅크 기능을 제공하여 스케일러블 데이터스트림을 생성하는 방법 및 장치와 스케일러블 데이터스트림을 디코딩하는 방법 및 장치
DE50200750T DE50200750D1 (de) 2001-01-18 2002-01-14 Verfahren und vorrichtung zum erzeugen eines skalierbaren datenstroms und verfahren und vorrichtung zum decodieren eines skalierbaren datenstroms unter berücksichtigung einer bitsparkassenfunktion
US10/466,866 US7496517B2 (en) 2001-01-18 2002-01-14 Method and device for generating a scalable data stream and method and device for decoding a scalable data stream with provision for a bit saving bank function
AU2002242667A AU2002242667B2 (en) 2001-01-18 2002-01-14 Method and device for producing a scalable data stream, and method and device for decoding a scalable data stream while taking a bit bank function into account

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE10102154A DE10102154C2 (de) 2001-01-18 2001-01-18 Verfahren und Vorrichtung zum Erzeugen eines skalierbaren Datenstroms und Verfahren und Vorrichtung zum Decodieren eines skalierbaren Datenstroms unter Berücksichtigung einer Bitsparkassenfunktion
DE10102154.2 2001-01-18

Publications (2)

Publication Number Publication Date
WO2002058051A2 true WO2002058051A2 (de) 2002-07-25
WO2002058051A3 WO2002058051A3 (de) 2002-09-19

Family

ID=7670983

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2002/000295 Ceased WO2002058051A2 (de) 2001-01-18 2002-01-14 Verfahren und vorrichtung zum erzeugen eines skalierbaren datenstroms und verfahren und vorrichtung zum decodieren eines skalierbaren datenstroms unter berücksichtigung einer bitsparkassenfunktion

Country Status (9)

Country Link
US (1) US7496517B2 (de)
EP (1) EP1354314B1 (de)
JP (1) JP3890298B2 (de)
KR (1) KR100516985B1 (de)
AT (1) ATE272884T1 (de)
AU (1) AU2002242667B2 (de)
CA (1) CA2434783C (de)
DE (2) DE10102154C2 (de)
WO (1) WO2002058051A2 (de)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7844727B2 (en) * 2003-04-24 2010-11-30 Nokia Corporation Method and device for proactive rate adaptation signaling
KR100647336B1 (ko) * 2005-11-08 2006-11-23 삼성전자주식회사 적응적 시간/주파수 기반 오디오 부호화/복호화 장치 및방법
EP1841072B1 (de) * 2006-03-30 2016-06-01 Unify GmbH & Co. KG Verfahren und Einrichtung zum Dekodieren von schichtkodierten Daten
FR2911228A1 (fr) * 2007-01-05 2008-07-11 France Telecom Codage par transformee, utilisant des fenetres de ponderation et a faible retard.

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3943879B4 (de) * 1989-04-17 2008-07-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Digitales Codierverfahren
US5365552A (en) * 1992-11-16 1994-11-15 Intel Corporation Buffer fullness indicator
DE19537338C2 (de) * 1995-10-06 2003-05-22 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Codieren von Audiosignalen
US5758092A (en) * 1995-11-14 1998-05-26 Intel Corporation Interleaved bitrate control for heterogeneous data streams
US6092041A (en) * 1996-08-22 2000-07-18 Motorola, Inc. System and method of encoding and decoding a layered bitstream by re-applying psychoacoustic analysis in the decoder
KR100261254B1 (ko) * 1997-04-02 2000-07-01 윤종용 비트율 조절이 가능한 오디오 데이터 부호화/복호화방법 및 장치
KR100261253B1 (ko) * 1997-04-02 2000-07-01 윤종용 비트율 조절이 가능한 오디오 부호화/복호화 방법및 장치
KR100335609B1 (ko) * 1997-11-20 2002-10-04 삼성전자 주식회사 비트율조절이가능한오디오부호화/복호화방법및장치
AU1928999A (en) * 1997-12-19 1999-07-12 Kenneth Rose Scalable predictive coding method and apparatus
KR100354531B1 (ko) * 1998-05-06 2005-12-21 삼성전자 주식회사 실시간 복호화를 위한 무손실 부호화 및 복호화 시스템
US6182031B1 (en) * 1998-09-15 2001-01-30 Intel Corp. Scalable audio coding system
US6904089B1 (en) * 1998-12-28 2005-06-07 Matsushita Electric Industrial Co., Ltd. Encoding device and decoding device
JP2000307661A (ja) * 1999-04-22 2000-11-02 Matsushita Electric Ind Co Ltd 符号化装置および復号化装置
US6446037B1 (en) * 1999-08-09 2002-09-03 Dolby Laboratories Licensing Corporation Scalable coding method for high quality audio
CN1324558C (zh) * 2001-11-02 2007-07-04 松下电器产业株式会社 编码设备,解码设备以及音频数据分配系统

Also Published As

Publication number Publication date
KR100516985B1 (ko) 2005-09-26
DE50200750D1 (de) 2004-09-09
CA2434783C (en) 2008-04-15
DE10102154A1 (de) 2002-08-08
CA2434783A1 (en) 2002-07-25
EP1354314B1 (de) 2004-08-04
EP1354314A2 (de) 2003-10-22
WO2002058051A3 (de) 2002-09-19
JP3890298B2 (ja) 2007-03-07
KR20030076614A (ko) 2003-09-26
AU2002242667B2 (en) 2004-11-25
US20040107289A1 (en) 2004-06-03
US7496517B2 (en) 2009-02-24
JP2004520739A (ja) 2004-07-08
DE10102154C2 (de) 2003-02-13
ATE272884T1 (de) 2004-08-15
HK1056790A1 (en) 2004-02-27

Similar Documents

Publication Publication Date Title
EP1338004B1 (de) Verfahren und vorrichtung zum erzeugen bzw. decodieren eines skalierbaren datenstroms unter berücksichtigung einer bitsparkasse, codierer und skalierbarer codierer
DE19549621B4 (de) Vorrichtung zum Codieren von Audiosignalen
DE19628292B4 (de) Verfahren zum Codieren und Decodieren von Stereoaudiospektralwerten
DE60121592T2 (de) Kodierung und dekodierung eines digitalen signals
EP2057625B1 (de) Kodierung eines informationssignals
EP1647010B1 (de) Audiodateiformatumwandlung
DE3688980T2 (de) Verfahren zur Multigeschwindigkeitskodierung von Signalen und Einrichtung zur Durchführung dieses Verfahrens.
DE69624383T2 (de) Verfahren zum kodieren und dekodieren von audiosignalen
DE69432012T2 (de) Wahrnehmungsgebundene Kodierung von Audiosignalen
DE60012860T2 (de) Verfahren zur Verarbeitung mehrerer digitaler Audiodatenströme
DE10200653B4 (de) Skalierbarer Codierer, Verfahren zum Codieren, Decodierer und Verfahren zum Decodieren für einen skalierten Datenstrom
EP1327243B1 (de) Verfahren und vorrichtung zum erzeugen eines skalierbaren datenstroms und verfahren und vorrichtung zum decodieren eines skalierbaren datenstroms
DE19742655C2 (de) Verfahren und Vorrichtung zum Codieren eines zeitdiskreten Stereosignals
WO2002103695A2 (de) Vorrichtung und verfahren zum einbetten eines wasserzeichens in ein audiosignal
EP1926082A1 (de) Verfahren zur skalierbaren Codierung von Stereo-Signalen
EP1023777B1 (de) Verfahren und vorrichtung zur erzeugung eines bitratenskalierbaren audio-datenstroms
DE60217612T2 (de) Verfahren und Vorrichtung zur Kodierung und Dekodierung von Sprachsignalen
EP1354314B1 (de) Verfahren und vorrichtung zum erzeugen eines skalierbaren datenstroms und verfahren und vorrichtung zum decodieren eines skalierbaren datenstroms unter berücksichtigung einer bitsparkassenfunktion
EP2245622B1 (de) Verfahren und mittel zur dekodierung von hintergrundrauschinformationen
DE2303497C2 (de) Verfahren zur Übertragung von Sprachsignalen
DE69700837T2 (de) System zur kodierung und dekodierung eines signals, insbesondere eines digitalen audiosignals
DE10339498B4 (de) Audiodateiformatumwandlung
DE69420848T2 (de) Sprachkodierer/-dekodierer mit fester bitrate

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A2

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NO NZ OM PH PL PT RO RU SD SE SG SI SK SL TJ TM TN TR TT TZ UA UG US UZ VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A2

Designated state(s): GH GM KE LS MW MZ SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE CH CY DE DK ES FI FR GB GR IE IT LU MC NL PT SE TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
AK Designated states

Kind code of ref document: A3

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NO NZ OM PH PL PT RO RU SD SE SG SI SK SL TJ TM TN TR TT TZ UA UG US UZ VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A3

Designated state(s): GH GM KE LS MW MZ SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE CH CY DE DK ES FI FR GB GR IE IT LU MC NL PT SE TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

DFPE Request for preliminary examination filed prior to expiration of 19th month from priority date (pct application filed before 20040101)
WWE Wipo information: entry into national phase

Ref document number: 2002708282

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 2002242667

Country of ref document: AU

WWE Wipo information: entry into national phase

Ref document number: 2434783

Country of ref document: CA

WWE Wipo information: entry into national phase

Ref document number: 1020037009508

Country of ref document: KR

WWE Wipo information: entry into national phase

Ref document number: 2002558258

Country of ref document: JP

WWP Wipo information: published in national office

Ref document number: 1020037009508

Country of ref document: KR

WWP Wipo information: published in national office

Ref document number: 2002708282

Country of ref document: EP

REG Reference to national code

Ref country code: DE

Ref legal event code: 8642

WWE Wipo information: entry into national phase

Ref document number: 10466866

Country of ref document: US

WWG Wipo information: grant in national office

Ref document number: 2002708282

Country of ref document: EP

WWG Wipo information: grant in national office

Ref document number: 2002242667

Country of ref document: AU

WWG Wipo information: grant in national office

Ref document number: 1020037009508

Country of ref document: KR