DE60303346T2 - Encodier- und/oder Decodierverfahren für digitale Audiosignale, basierend auf Zeit-Frequenzkorrelation und Vorrichtung hierzu - Google Patents

Encodier- und/oder Decodierverfahren für digitale Audiosignale, basierend auf Zeit-Frequenzkorrelation und Vorrichtung hierzu Download PDF

Info

Publication number
DE60303346T2
DE60303346T2 DE60303346T DE60303346T DE60303346T2 DE 60303346 T2 DE60303346 T2 DE 60303346T2 DE 60303346 T DE60303346 T DE 60303346T DE 60303346 T DE60303346 T DE 60303346T DE 60303346 T2 DE60303346 T2 DE 60303346T2
Authority
DE
Germany
Prior art keywords
block
time
frequency band
information
band table
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60303346T
Other languages
English (en)
Other versions
DE60303346D1 (de
Inventor
Mathew Yeongtong-gu Suwon-si Manu
Ki-seok Yeongtong-gu Suwon-si Chang
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Application granted granted Critical
Publication of DE60303346D1 publication Critical patent/DE60303346D1/de
Publication of DE60303346T2 publication Critical patent/DE60303346T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

  • Die vorliegende Erfindung bezieht sich auf ein digitales Audio-Codier- und/oder Decodierverfahren sowie eine Vorrichtung zur Ausführung desselben und insbesondere auf ein Audio-Codier- und/oder Decodierverfahren zur Verbesserung der Codier- und Decodiervorrichtung des Standes der Technik derart, dass eine bessere Klangqualität bei geringerer Bitrate erzeugt wird.
  • Audio-Codierer und -Decodierer, d.h. Audiocodecs, finden weit verbreitete Anwendung, da sie es den Benutzern gestatten, Musikdateien über das Internet mit einer geringeren Bitrate zu senden. Von den Audiocodecs sind MP3-Codecs, die verwendet werden, um Musikdateien über das Internet gemeinsam zu nutzen und Musikdateien in tragbaren Audioabspielgeräten abzuspielen, zum Standard geworden. Die Zahl von MP3-Musikdateien, die im Internet verfügbar sind, und die Benutzer, die MP3-Musikdateien gemeinsam nutzen, nehmen exponential zu.
  • Auf dem Gebiet der Audiocodierung wurden umfangreiche Untersuchungen und Entwicklungen ausgeführt, um Audiocodecs anzuwenden, die ein Audiosignal bei einer niedrigen Bitrate komprimieren können, während die ursprüngliche Klangqualität erhalten beliebt. Die Audiocodecs beinhalten Motion Picture Experts Group (MPEG)-1 Layer 3, MPEG-2 Advanced Audio Coding (AAC), MPEG-4 und Windows Media Audio (WMA).
  • 1 ist ein Blockschaltbild einer Vorrichtung nach dem Stand der Technik für die MPEG-Audiocodierung. Im folgenden wird hier ein MPEG-1-Layer-3-Audiocodierer, d.h. ein MP3-Audiocodierer, als Beispiel beschrieben.
  • MP3-Audiocodierer enthalten eine Filterbank 110, eine FFT-Einheit 120 (FFT = Fast Fourier Transformation), eine Psychoakustik-Modelleinheit 130, eine MDCT- Einheit (MDCT = Modified Discrete Cosine Transformation) sowie eine Quantisier- und Huffman-Codiereinheit 150.
  • Die Filterbank 110 unterteilt ein eingegebenes Zeitdomänen-Audiosignal in 32 Frequenzdomänen-Teilbänder, um die statistische Redundanz eines Audiosignals zu entfernen.
  • Die FFT-Einheit 120 konvertiert das eingegebene Audiosignal in ein Frequenzdomänen-Spektrum und gibt das Spektrum an die Psychoakustik-Modelleinheit 130 aus.
  • Um die wahrnehmbare Redundanz zu entfernen, die aus der Charakteristik des menschlichen Gehörs resultiert, ermittelt unter Verwendung des Frequenzspektrums, das von der FFT-Einheit 120 ausgegeben wird, die Psychoakustik-Modelleinheit 130 einen Maskierschwellenwert, der ein Geräuschpegel ist, den der Mensch nicht wahrnehmen kann, d.h. einen Signal-zu-Masken-Abstand (SMR), für jedes Teilband. Der SMR-Wert, der in der Psychoakustik-Modelleinheit 130 ermittelt wird, wird in die Quantisier- und Huffmann-Codiereinheit 150 eingegeben.
  • Zudem ermittelt die Psychoakustik-Modelleinheit 130, ob ein Fenster umgeschaltet werden soll, oder nicht, indem sie wahrnehmbare Energie berechnet, und gibt die Fensterumschaltinformationen an die MDCT-Einheit 140 aus.
  • Um die Frequenzauflösung zu verbessern, unterteilt die MDCT-Einheit 140 die Teilbänder, die in der Filterbank 110 unterteilt werden, in feinere Frequenzbänder mit Hilfe der Fensterumschaltinformationen, die von der Psychoakustik-Modelleinheit 130 eingegeben werden.
  • Auf der Basis des SMR-Wertes, der von der Psychoakustik-Modelleinheit 140 eingegeben wird, verarbeitet die Quantisierungs- und Huffman-Codiereinheit 150 die Frequenzdomänendaten, die von der MDCT-Einheit 140 nach der MDTC-Transformation eingegeben werden, durch Ausführung einer Bitzuordnung zum Entfernen wahrnehmbarer Redundanz und Quantisierung für die Audiosignalcodierung.
  • Das Audiocodierverfahren, bei dem ein psychoakustische Model zur Anwendung gelangt, das in 1 dargestellt ist, ist im US-Patent No. 6.092.041 beschrieben. Da die Audiocodecs, wie etwa der MP3-Codierer, der in 1 gezeigt ist, die Codierung und die Decodierung bei niedrigen Bitraten ausführen, wird die Audioqualität beeinträchtigt.
  • Gemäß der vorliegenden Erfindung werden eine Vorrichtung und ein Verfahren angegeben, wie sie in den beiliegenden Ansprüchen definiert sind. Bevorzugte Merkmale der Erfindung werden aus den abhängigen Ansprüchen und der folgenden Beschreibung verständlich.
  • Die vorliegende Erfindung gibt ein Audiocodierverfahren und eine Audiocodiervorrichtung an, mit denen das Leistungsvermögen der Codiervorrichtung des Standes der Technik so verbessert wird, dass bei einer niedrigeren Bitrate eine bessere Tonqualität erzeugt wird.
  • Die vorlegende Erfindung gibt zudem ein Audiodecodierverfahren und eine Audiodecodiervorrichtung an, mit denen das Leistungsvermögen der Decodiervorrichtung des Standes der Technik so verbessert wird, das bei einer niedrigeren Bitrate eines bessere Tonqualität erzeugt wird.
  • Gemäß einem Aspekt der vorliegenden Erfindung wird ein Verfahren zum Codieren digitaler Audiosignale angegeben, das umfasst: (a) auf Basis eines Eingangs-Audiosignals Erzeugen einer Zeit-Frequenzband-Tabelle, wobei jedes Element der Zeit-Frequenzband-Tabelle eine Vielzahl von Spektrumkoeffizienten hat und die Zeit-Frequenzband-Tabelle eine Vielzahl von Frequenzbändern in einem Zeitrahmen des digitalen Audiosignals sowie einer Vielzahl folgender Zeitrahmen abdeckt; (b) auf Basis der erzeugten Zeit-Frequenzband-Tabelle Suchen nach einem nächstgelegenen Nachbarblock eines Blocks, der gegenwärtig codiert wird, und Erzeugen von Informationen über den nächstgelegenen Nachbarblock; und (c) Erzeugen eines Bitstroms, der die erzeugten Informationen über den nächstgelegenen Nachbarblock enthält.
  • Gemäß einem weiteren Aspekt der vorliegenden Erfindung wird ein Verfahren zum Codieren digitaler Audiosignale angegeben, das umfasst: (a) auf Basis eines Eingangs-Audiosignals Erzeugen einer Zeit-Frequenzband-Tabelle, wobei jedes Element der Zeit-Frequenzband-Tabelle eine Vielzahl von Spektrumkoeffizienten hat und die Zeit-Frequenzband-Tabelle eine Vielzahl von Frequenzbändern in einem Zeitrahmen des digitalen Audiosignals sowie einer Vielzahl folgender Zeitrahmen abdeckt; (b) auf Basis der erzeugten Zeit-Frequenzband-Tabelle Suchen nach einem nächstgelegenen Nachbarblock eines Blocks, der momentan codiert wird; (c) auf Basis des nächstgelegenen Nachbarblocks, nach dem gesucht wird, Ermitteln, ob ein Block, der momentan codiert wird, ein redundanter Block ist, oder nicht; und (d) auf Basis des Ergebnisses, das in Schritt (c) ermittelt wurde, Erzeugen eines Ausgangs-Bitstroms.
  • Gemäß einem weiteren Aspekt der vorliegenden Erfindung; wird eine Vorrichtung zum Codieren digitaler Audiosignale angegeben, die enthält: eine Einheit zum Erzeugen einer Zeit-Frequenzband-Tabelle, die so eingerichtet ist, dass sie auf Basis eines Eingangs-Audiosignals eine Zeit-Frequenzband-Tabelle erzeugt, wobei jedes Element der Zeit-Frequenzband-Tabelle eine Vielzahl von Spektrumkoeffizienten hat und die Zeit-Frequenzband-Tabelle eine Vielzahl von Frequenzbändern in einem Zeitrahmen des digitalen Audiosignals sowie einer Vielzahl folgender Zeitrahmen abdeckt; eine Einheit zum Suchen eines nächstgelegenen Nachbarblocks und zum Erzeugen von Informationen über den nächstgelegenen Nachbarblock, die so eingerichtet ist, dass sie auf Basis der erzeugten Zeit-Frequenzband-Tabelle nach einem nächstgelegenen Nachbarblock eines Blocks sucht, der gegenwärtig codiert wird, und Informationen über den nächstgelegenen Nachbarblock erzeugt; und eine Bitstrom-Packeinheit, die so eingerichtet ist, dass sie einen Bitstrom erzeugt, der die erzeugten Informationen über den nächstgelegenen Nachbarblock enthält.
  • Gemäß einem weiteren Aspekt der vorliegenden Erfindung wird eine Vorrichtung zum Codieren digitaler Audiosignale angegeben, die enthält: eine Einheit zum Erzeugen einer Zeit-Frequenzband-Tabelle, die so eingerichtet ist, dass sie auf Basis eines Eingangs-Audiosignals eine Zeit-Frequenzband-Tabelle erzeugt, wobei jedes Element der Zeit-Frequenzband-Tabelle eine Vielzahl von Spektrum koeffizienten hat und die Zeit-Frequenzband-Tabelle eine Vielzahl von Frequenzbändern in einem Zeitrahmen des digitalen Audiosignals und einer Vielzahl folgender Zeitrahmen abdeckt; eine Einheit zum Suchen eines nächstgelegenen Nachbarblocks, die so eingerichtet ist, dass sie auf Basis der erzeugten Zeit-Frequenzband-Tabelle nach einem nächstgelegenen Nachbarblock eines Blocks sucht, der gegenwärtig codiert wird; eine Einheit, die über einen redundanten Block entscheidet und so eingerichtet ist, dass sie auf Basis des nächstgelegenen Nachbarblocks bestimmt, ob der gegenwärtig codierte Block ein redundanter Block ist oder nicht; und eine Bitstrom-Erzeugungseinheit, die so eingerichtet ist, dass sie auf Basis des in der Einheit zum Entscheiden über einen redundanten Block bestimmten Ergebnisses einen Ausgangs-Bitstrom erzeugt.
  • Gemäß einem weiteren Aspekt der vorliegenden Erfindung wird ein Decodierverfahren zum Decodieren eines Audiosignals, das zusätzliche Informationen über einen vorgegebenen Bereich des Audiosignals enthält, angegeben, das umfasst: (a) Decodieren eines Blocks, der nicht in dem vorgegebenen Bereich enthalten ist, aus einem Eingangs-Audio-Bitstrom; (b) auf Basis der Daten des decodierten Blocks Erzeugen einer Zeit-Frequenzband-Tabelle, die dem vorgegebenen Bereich entspricht, wobei jedes Element der Zeit-Frequenzband-Tabelle eine Vielzahl von Spektrumkoeffizienten hat und die Zeit-Frequenzband-Tabelle eine Vielzahl von Frequenzbändern in einem Zeitrahmen des digitalen Audiosignals sowie einer Vielzahl folgender Zeitrahmen abdeckt; und (c) unter Verwendung der erzeugten Zeit-Frequenzband-Tabelle Rekonstruieren eines aktuellen Blocks, der in dem vorgegebenen Bereich enthalten ist, auf Basis der zusätzlichen Informationen über den vorgegebenen Bereich des Audiosignals.
  • Gemäß einem zusätzlichen Aspekt der vorliegenden Erfindung wird ein Decodierverfahren zum Decodieren eines digitalen Audiosignals angegeben, das umfasst: (a) Extrahieren von Informationen über den nächstgelegenen Nachbarblock aus einem Eingangs-Audio-Bitstrom; (b) auf Basis des Eingangs-Audio-Datenstroms Erzeugen einer Zeit-Frequenzband-Tabelle, wobei jedes Element der Zeit-Frequenzband-Tabelle eine Vielzahl von Spektrumkoeffizienten hat und die Zeit-Frequenzband-Tabelle eine Vielzahl von Frequenzbändern in einem Zeitrahmen des digitalen Audiosignals sowie einer Vielzahl folgender Zeitrahmen abdeckt; (c) auf Basis der extrahierten Informationen über den nächstgelegenen Nachbarblock Bestimmen, ob ein gegenwärtig decodierter Block ein redundanter Block ist oder nicht; und (d) wenn der gegenwärtig decodierte Block der redundante Block ist, Rekonstruieren des redundanten Blocks unter Verwendung der erzeugten Zeit-Frequenzband-Tabelle auf Basis der extrahierten Informationen über den nächstgelegenen Nachbarblock. Das Verfahren kann zudem das Rekonstruieren eines gesamten Spektrums entsprechend dem Eingangs-Audio-Bitstrom unter Verwendung des rekonstruierten redundanten Blocks umfassen.
  • Gemäß einem Aspekt der vorliegenden Erfindung wird eine Decodiervorrichtung zum Decodieren eines Audiosignals, das zusätzliche Informationen über einen vorgegebenen Bereich des Audiosignals enthält, angegeben, das umfasst: eine Decodiereinheit, die so eingerichtet ist, dass sie einen Block, der in dem vorgegebenen Bereich enthalten ist, aus einem Eingangs-Audio-Bitstrom decodiert; und eine Nachverarbeitungseinheit; die so eingerichtet ist, dass sie auf Basis der Daten des decodierten Blocks eine Zeit-Frequenzband-Tabelle erzeugt, die dem vorgegebenen Bereich entspricht, und unter Verwendung der erzeugten Zeit- Frequenzband-Tabelle einen aktuellen Block, der in dem vorgegebenen Bereich enthalten ist, auf Basis der zusätzlichen Informationen über den vorgegebenen Bereich des Audiosignals rekonstruiert, wobei jedes Element der Zeit-Frequenzband-Tabelle eine Vielzahl von Spektrumkoeffizienten hat und die Zeit-Frequenzband-Tabelle eine Vielzahl von Frequenzbändern in einem Zeitrahmen des digitalen Audiosignals sowie einer Vielzahl folgender Zeitrahmen abdeckt.
  • Gemäß einem weiteren Aspekt der vorliegenden Erfindung wird eine Decodiervorrichtung zum Decodieren eines digitalen Audiosignals, angegeben, die umfasst: eine Einheit zum Extrahieren von Informationen über einen nächstgelegenen Nachbarblock, die so eingerichtet ist, dass sie Informationen über einen nächstgelegenen Nachbarblock aus einem Eingangs-Audio-Bitstrom extrahiert; eine Einheit zum Erzeugen einer Zeit-Frequenzband-Tabelle, die so eingerichtet ist, dass sie auf Basis des Eingangs-Audio-Bitstroms eine Zeit-Frequenzband-Tabelle erzeugt, wobei jedes Element der Zeit-Frequenzband-Tabelle eine Vielzahl von Spektrumkoeffizienten hat und die Zeit-Frequenzband-Tabelle eine Vielzahl von Frequenzbändern in einem Zeitrahmen des digitalen Audiosignals sowie einer Vielzahl folgender Zeitrahmen abdeckt; und eine Einheit zum Rekonstruieren eines redundanten Blocks, die so eingerichtet ist, dass sie auf Basis der extrahierten Informationen über den nächstgelegenen Nachbarblock bestimmt, ob ein gegenwärtig decodierter Block ein redundanter Block ist oder nicht, und wobei die Einheit zum Rekonstruieren des redundanten Blocks so eingerichtet ist, dass sie, wenn der gegenwärtig decodierte Block der redundante Block ist, den redundanten Block unter Verwendung der erzeugten Zeit-Frequenzband-Tabelle auf Basis der extrahierten Informationen über den nächstgelegenen Nachbarblock rekonstruiert.
  • Zum besseren Verständnis der Erfindung und um zu zeigen, wie die Ausführungsformen derselben in die Praxis umgesetzt werden können, wird nun auf beispielhaft auf die beiliegenden Zeichnungen Bezug genommen.
  • 1 ist ein Blockschaltbild einer MPEG-Audio-Codiervorrichtung gemäß dem Stand der Technik;
  • 2 ist ein Diagramm zur Erläuterung eines Spektrumsband-Replikationsverfahrens;
  • 3 ist ein Diagramm einer Codiervorrichtung gemäß einer beispielhaften Ausführungsform der vorliegenden Erfindung;
  • 4 ist ein Diagramm, das eine Zeit-Frequenzband-Tabelle zeigt, die bei der vorliegenden Erfindung Verwendung findet;
  • 5 ist ein Flussdiagramm der Schritte, die von einem Codierverfahren gemäß einer beispielhaften Ausführungsform der vorliegenden Erfindung ausgeführt werden;
  • 6 ist ein Diagramm einer Codiervorrichtung gemäß einer weiteren beispielhaften Ausführungsform der vorliegenden Erfindung;
  • 7 ist ein Flussdiagramm der Schritte, die von einem Codierverfahren gemäß einer weiteren beispielhaften Ausführungsform der vorliegenden Erfindung ausgeführt werden;
  • 8 ist ein Diagramm einer Decodiervorrichtung gemäß einer beispielhaften Ausführungsform der vorliegenden Erfindung;
  • 9 ist ein Flussdiagramm der Schritte, die von einem Decodierverfahren gemäß einer beispielhaften Ausführungsform der vorliegenden Erfindung ausgeführt werden;
  • 10 ist ein Diagramm einer Decodiervorrichtung gemäß einer weiteren beispielhaften Ausführungsform der vorliegenden Erfindung; und
  • 11 ist ein Flussdiagramm der Schritte, die von einem Decodierverfahren gemäß einer weiteren exemplarischen Ausführungsform der vorliegenden Erfindung durchgeführt werden.
  • Sprachcodecs und Videocodecs verwenden die Zeitkorrelation zwischen Signalabtastungen, um Daten zu komprimieren. Sprachcodecs verwenden ein lineares Prädiktionskoeffizient-Verfahren, um die Kompression auszuführen. Daneben verwenden Videocodecs die Bewegungsmessung, um die Zeitkorrelation auszuführen.
  • Im allgemeinen ist die Verwendung der Zeitkorrelation für die Datenkompression für Audiocodecs ungeeignet, da Eigenschaften eines Audiosignals dynamisch sind und eine geringere Zeitkorrelation aufweisen. In einer Frequenztransformationsdomäne ist jedoch ein Teilbanddatensignal im Vergleich zu jenen in einer Zeitdomäne im wesentlichen statisch. Demzufolge wird das lineare Prädiktionsverfahren, das die Korrelation zwischen Frames verwendet, in der Frequenztransformationsdomäne benutzt.
  • Um beispielsweise ein besseres Kompressionsverhältnis zu erreichen, führt MPEG-2 AAC eine lineare Prädiktion für jeden Transformationskoeffizienten aus. Um zudem eine Langzeit-Periodizität zu entfernen, verwendet MPEG-4 AAC einen Langzeit-Prädiktor, der dem linearen Prädiktionsverfahren gleicht.
  • Unter Bezugnahme auf 2 wird nun ein Spektumsband-Replikations- (SBR-) Verfahren erläutert, das die Ähnlichkeit von Spektrumkoeffizienten verwendet.
  • Das SBR-Verfahren verbessert die Leitungsfähigkeit des Audio- und des Videocodecs bei einer niedrigen Bitrate durch Erhöhen eines Audiobandes bei einer gegebenen Bitrate oder durch Verbessern der Codiereffizienz auf einer gegebe nen Qualitätsebene. Siehe auch Dietz et. al. "Spectral Band Replication, a Novel Approach in Audio Coding", AES Convention Paper 5533, Mai 2002.
  • Gemäß dem SBR-Verfahren, das in 2 gezeigt ist, codiert ein Codierer nicht den Hochfrequenzteil eines Frequenzspektrums, sondern lediglich den Niederfrequenzteil, und sendet anschließend das Signal. Wenn das Signal decodiert wird, wird anschließend der Hochfrequenzteil, der nicht gesendet wurde, auf der Basis des Spektrums des Niederfrequenzteils rekonstruiert.
  • Beim Codierverfahren des Standes der Technik codiert beispielsweise ein MP3-Codierer, der das SBR-Verfahren verwendet, einen Teil eines Musiksignals von 0 bis 8 kHz. Die MP3-Datei, in der lediglich der Teil von 0 bis 8 kHz codiert ist, kann durch einen Decoder des Standes der Technik decodiert werden. Daher ist das SBR-Verfahren mit MP3 des Standes der Technik kompatibel. Beim SBR-Verfahren wird, um den Hochfrequenzteil, d.h. der Teil von 8 bis 18 kHz zu rekonstruieren, die harmonische Struktur des Spektrums und zudem das decodierte Signal von 0 bis 8 kHz verwendet.
  • Wenn das SBR-Verfahren angewendet wird, kann die schmale Audiobandbreite, die bei einer niedrigen Bitrate durch einen Codec erzeugt wird, der das wahrnehmbare Codierverfahren verwendet, derart erweitert werden, dass eine analoge FM-Audiobandbreite (15 kHz) oder mehr erzeugt wird. Zudem verbessert das SBR-Verfahren die Leistungsfähigkeit eines schmalbandigen Sprachcodecs, wobei es beispielsweise möglich ist, einen zugewiesenen Sprachkanal vorzusehen, der eine Audiobandbreite von 12 kHz hat, die bei einer mehrsprachigen Rundsendung verwendet wird.
  • Obwohl zusätzliche Codiererinformationen für die Leitung des Decodiervorgangs teilweise im Codierer verarbeitet werden, werden die meisten Schritte des SBR-Verfahrens im Decoder ausgeführt.
  • Vom technischen Standpunkt aus gesehen, dient das SBR-Verfahren der effizienten Codierung eines Hochfrequenzsignals in einem Audiokompressions-Algorithmus. Eine Codiervorrichtung, die das SBR-Verfahren verwendet, sendet lediglich den Niederfrequenzteil eines Spektrums. Der ausgelassene Hochfrequenzteil wird bei einem Decodiervorgang im SBR-Decoder erzeugt. Anstelle der Sendung des Hochfrequenzteils, analysiert der Decodierer das Spektrum des Niederfrequenzteils, der vom Codierer gesendet wurde und rekonstruiert den Hochfrequenzteil.
  • Um eine genaue Rekonstruktion des Hochfrequenzteils zu garantieren, werden einige Anweisungsinformationen als Bitstrom gesendet, der mit einer niedrigen Bitrate codiert ist. Infolgedessen ermöglicht das SBR-Verfahren die Codierung des gesamten Bandes eines Audiosignals bei einer äußerst geringen Datenrate, und stellt gleichzeitig eine deutlich verbesserte Kompressionswirkung im Vergleich zu den MP3-Codierern des Standes der Technik zur Verfügung.
  • Somit verwendet der LPC-Algorithmus die Zeitkorrelation, während der SBR-Algorithmus die Frequenzkorrelation eines Signals benutzt.
  • Ein Algorithmus gemäß der vorliegenden Erfindung verwendet sowohl Zeit- als auch Frequenzabhängigkeiten eines Audiosignals zur selben Zeit. Unter Bezugnahme auf 3 bis 11 werden nun beispielhafte Ausführungsformen gemäß der vorliegenden Erfindung erläutert.
  • 3 ist eine Darstellung einer beispielhaften Ausführungsform der vorliegenden Erfindung.
  • Unter Bezugnahme auf 3 und 4 wird nun ein Audiocodierverfahren gemäß einer beispielhaften Ausführungsform der vorliegenden Erfindung erläutert.
  • Die Codiervorrichtung gemäß der vorliegenden Erfindung enthält eine Codiereinheit 310, eine Zeit-Frame-Band-Replikations- (TFBR-) Einheit 320 und eine Bitstrom-Packeinheit.
  • Die Codiereinheit 310 führt eine Funktion ähnlich dem Audiocodierer des Standes der Technik aus, d.h. dem Audiocodierer, der in 1 gezeigt ist. Demzufolge wird auf eine detaillierte Beschreibung der Funktion der Codiereinheit 310 verzichtet.
  • Wenngleich der Audiocodierer, der in 1 gezeigt ist, bei der vorliegenden Ausführungsform verwendet wird, können andere Audiocodierer ebenfalls verwendet werden.
  • Die TFBR-Einheit 320 enthält eine Einheit 322 zum Erzeugen einer Zeit-Frequenzband-Tabelle und eine Einheit 324 zum Suchen eines nächstgelegenen Nachbarblocks und zum Erzeugen von Informationen über den nächstgelegenen Nachbarblock.
  • Die Einheit 322 zum Erzeugen einer Zeit-Frequenzband-Tabelle unterteilt das Datensignal, das in der Codiereinheit MDCT-transformiert wird, in N Frequenzblöcke in jedem Frame, so dass die Zeit-Frequenz-Indexkombination, d.h. eine Zeit-Frequenz- (TF-) Band-Tabelle erzeugt wird, die in 4 gezeigt ist.
  • Obwohl die MDCT-Transformation als Zeit-Frequenz-Transformationsverfahren bei der vorliegenden Ausführungsform verwendet wird, können auch andere Zeit-Frequenz-Transformationsverfahren verwendet werden.
  • Nachdem bei der vorliegenden Ausführungsform die MDCT-Einheit der Codiereinheit das Audiosignal in eine Vielzahl von Bändern unterteilt hat, hat jedes Band eine Vielzahl von Spektrumkoeffizienten. Obwohl Bänder mit einer identischen Breite bei der vorliegenden Erfindung verwendet werden, können ebenfalls Bänder mit einer Vielfalt von Breiten verwendet werden.
  • In 4 ist i ein Frameindex, und j = 0, 1, 2, ..., j – 1, j, j + 1, ..., N ist ein Frequenzblockindex eines Frames. Hier kennzeichnet i einen momentanen Frame, in dem eine Codierung ausgeführt wird, und i – 1 sowie i + 1 kennzeichnen den vorangehenden Frame bzw. den nächsten Frame. Daneben kennzeichnet j ein Frequenzband, in dem die Codierung ausgeführt wird, j = 0 kennzeichnet das erste Frequenzband in einem Frame, und j bezeichnet ebenfalls ein Frequenzband eines Blocks, der derzeit codiert werden soll. Zudem kennzeichnet j – 1 das vorhergehende Frequenzband.
  • Beispielsweise kennzeichnet B(i, j) von 4 einen Block entsprechend einem j-ten Frequenzband in einem i-ten Frame, wobei die Zahl der Spektrumkoeffizienten in jedem Block B(i, j) identisch ist.
  • Das TFBR-Verfahren, bei dem die TF-Band-Tabelle verwendet wird, die in 4 gezeigt ist, wird nun detaillierter beschrieben.
  • Das TFBR-Verfahren gemäß der vorliegenden Erfindung verwendet sowohl die Zeitkorrelation zwischen Frames als auch die Spektrumsähnlichkeit zwischen Frequenzbändern. Zudem nutz die vorliegende Erfindung die Tatsache, dass der Block B(i, j) einen Wert hat, der dem Wert eines Blocks unter den vorherigen Blöcken gleicht. Dies basiert auf den folgenden Tatsachen.
    • 1. Das Sektrum des Hochfrequenzteils und jenes des Niederfrequenzteils in einem Signal haben eine inhärente Ähnlichkeit.
    • 2. Obwohl das gesamte Spektrum jedes Frames unterschiedlich ist, ist ein Teil des Spektrums eines momentanen Frames ähnlich einem Teil des Spektrums des vorhergehenden Frames.
  • Durch Verwendung der folgenden Gleichung 1 sucht die Einheit 324 zum Suchen eines nächstgelegenen Nachbarblocks und zum Erzeugen von Informationen über den nächstgelegenen Nachbarblock die vorhergehenden Blöcke die vorhergehenden Blöcke nach einem Block ab, der sich vom momentanen Block am wenigsten unterscheidet. Hier enthalten die vorhergehenden Blöcke nicht nur j vorhergehende Blöcke im momentanen Frame, sondern auch die Blöcke einer vorbestimmten Zahl vorhergehender Frames. D(i, j) = {|B(i, j), Ck·B(m, n)|} ...(1)wobei B(m, n) einen n-ten Block eines m-ten Frames kennzeichnet.
  • Wenn hier der m-te Frame ein momentaner Frame ist, dann sind m = i und n = 0, 1, ..., j – 1. Wenn der m-te Frame ein vorhergehender Frame ist, dann sind m = i – 1, i – 2, i – M + 1 und n = 0, 1, ..., N – 1. Ck ist ein Satz von Gewichtungsfaktoren und k = 0, 1, ..., K – 1.
  • Die Einheit 324 zum Suchen eines nächstgelegenen Nachbarblocks und zum Erzeugen von Informationen über den nächstgelegenen Nachbarblock ermittelt, ob der Block B(i, j), der momentan codiert wird, im Hochfrequenzband enthalten ist, oder nicht. Ist der momentane Block B(i, j) im Hochfrequenzband enthalten, d.h. ist j größer oder gleich einer vorbestimmten Frequenz jTH, erhält man die Werte m, n und k, die die Differenz zwischen B(i, j) und CkB(m, n) minimieren. Die Werte m, n und k, die D(i, j) minimieren, sind mit mmin, nmin bzw. kmin gekennzeichnet. Die bestimmten mmin und nmin werden als Index des Blocks bezeichnet, der sich am wenigsten vom momentanen Block B(i, j) unterscheidet.
  • Es wird bei der vorliegenden Ausführungsform, ob nach einem nächstgelegenen Nachbarblock gesucht werden soll, oder nicht, gemäß der Tatsache bestimmt, ob das Frequenzband des momentanen Blocks B(i, j) größer oder gleich einer Schwellenfrequenz jTH ist, oder nicht, d.h. ob der momentane Block B(i, j) im Hochfrequenzband enthalten ist, oder nicht. Es kann jedoch auch, ob nach einem nächstgelegenen Nachbarblock gesucht werden soll, auf der Basis dessen bestimmt werden, ob der momentane Block in einem willkürlichen Frequenzband und Zeitdomäne enthalten ist.
  • Die Funktion |x,y|, die in Gleichung 1 verwendet wird, ist eine Abstandsfunktion. Bei der vorliegenden Erfindung bedeutet die Funktion eine euklidische Abstandsfunktion gemäß der folgenden Gleichung 2. Es besteht jedoch die Möglichkeit, wahlweise ein Verfahren zur Klassifikation des nächstgelegenen Nachbars unter Verwendung einer gewichteten euklidischen Abstandsfunktion anzuwenden.
  • Figure 00130001
  • Die Gleichung 2 besteht aus einem n-dimensionalen Eigenschaftsraum und zeigt einen geometrischen Abstand zwischen zwei Punkten x = (x1, x2, x3, ..., xn) und y = (y1, y2, y3, ..., yn).
  • Die Einheit 324 zum Suchen eines nächstgelegenen Nachbarblocks und zum Erzeugen von Informationen über den nächstgelegenen Nachbarblock sucht nach einem Block, der den geringsten Abstand aus den Blöcken des vorhergehenden Frames hat, und die vorhergehenden Blöcke des momentanen Frames mit Hilfe der unten aufgeführten Gleichung 3. Der nächstgelegene Nachbarblock, der durch die Einheit 324 zum Suchen eines nächstgelegenen Nachbarblocks bestimmt wird, wird als B(mmin, nmin) bezeichnet.
  • D(i, j) der Gleichung 1 ist der euklidische Abstand zwischen dem i, j-ten Block und einem zum i, j-ten Block nächstgelegenen Block, d.h. der euklidische Abstand zwischen B(i, j) und Bmin(mmin, nmin)
  • Dmin(i, j), der den Minimalwert aus den D(i, j)-Werten hat, die man durch die Gleichung 1 erhält, ist in der Gleichung 3 unten dargestellt. D(i, j) = |B(i, j), Ckmin·B(mmin + nmin)| ...(3)
  • Die Bitstrom-Packeinheit 330 gibt an den Decoder einen Bitstrom aus, der die Indexinformationen mmin, nmin und kmin des nächstgelegenen Nachbarblocks enthält, d.h. einen TFBR-Bitstrom, anstelle der Spektrumsinformationen über den Block B(i, j). Hier wird lediglich der Teil des Audiosignals, der dem Frequenzband entspricht, das geringer ist als jTH, codiert und im Ausgangs-Bitstrom eingebunden, wobei der Teil größer oder gleich tTH nicht im Bitstrom enthalten ist.
  • Wenn ein beim Suchen nach einem nächstgelegenen Nachbarblock kein Skalierungsfaktor verwendet wird, sind lediglich die Indexinformationen mmin und nmin enthalten.
  • Bei der vorliegenden Ausführungsform sind bei einem MPEG-Bitstrom die Informationen über den nächstgelegenen Nachbarblock in einem Field enthalten, das Ergänzungsdaten 1 genannt wird. Die Informationen können jedoch wahlweise in anderen Feldern als dem Bitstrom enthalten sein.
  • Wenngleich die Objekte zur Suche nach einem nächstgelegenen Nachbarblock bei der vorliegenden Ausführungsform vorangehende Blöcke sind, ist es ebenfalls möglich, wahlweise nachfolgende Blöcke für einen nächstgelegenen Nachbarblock zu suchen.
  • 5 ist ein Flussdiagramm eines Audiocodierverfahrens gemäß einer beispielhaften Ausführungsform der vorliegenden Erfindung.
  • In einem Schritt 510 wird ein Audiosignal eingegeben und eine MDCT, die beim Audiocodierschritt des Standes der Technik ausgeführt wird, am eingegebenen Zeitdomänen-Audiosignal ausgeführt.
  • In Schritt 520 wird das Datensignal, das einer MDCT in Schritt 510 unterzogen wurde, in N Frequenzblöcke in jedem Frame unterteilt und die Zeit-Frequenz-Indexkombination, die in 4 gezeigt ist, d.h. die Zeit-Frequenzband-Tabelle, erzeugt. Obwohl die MDCT als Zeit-Frequenzband-Transformationsverfahren bei der vorliegenden Ausführungsform verwendet wird, können wahlweise ebenfalls andere Zeit-Frequenz-Transformationsverfahren verwendet werden.
  • In Schritt 530 wird ermittelt, ob die Frequenz des momentanen Blocks B(i, j) größer oder gleich der Schwellenfrequenz jTH ist. Die Schwellenfrequenz jTH ist ein Schwellenfrequenzwert zur Unterscheidung eines Niederfrequenzteils von einem Hochfrequenzteil. Wenn der momentane Block im Hochfrequenzband enthalten ist, wird Schritt 540 ausgeführt, und wenn er im Niederfrequenzband enthalten ist, wird Schritt 550 ausgeführt.
  • Wenngleich bei der vorliegenden Ausführungsform ermittelt wird, ob der momentane Block B(i, j) im Hochfrequenzband enthalten ist, kann ebenfalls ermittelt wer den, ob der Block in einem willkürlichen Frequenzband und Zeitdomäne enthalten ist, oder nicht.
  • In Schritt 540 wird auf der Basis der Zeit-Frequenzband-Tabelle, die in Schritt 520 erzeugt wird, nach einem Block B(mmin, nmin), der dem momentanen Block B(i, j) nächstgelegen ist, in den vorangehenden Blöcken des momentanen Blocks gesucht und werden die Informationen über den nächstgelegenen Nachbarblock des nächstgelegenen Nachbarblocks B(mmin, nmin) erzeugt. Die Informationen über den nächstgelegenen Block enthalten Indexinformationen mmin, nmin von B(mmin, nmin). Wenn ein Skalierungsfaktor beim Suchen nach dem nächstgelegenen Nachbarblock verwendet wird, enthalten die nächstgelegenen Nachbarblockinformationen den Skalierungsfaktor kmin.
  • In Schritt 550 wird der momentane Block, der im Niederfrequenzband enthalten ist, codiert.
  • In Schritt 560 wird ein Bitstrom, d.h. ein TFBR-Bitstrom, der die Informationen über den nächstgelegenen Nachbarblock enthält, d.h. die Indexinformationen mmin, nmin und kmin des nächstgelegenen Blocks, die anstelle der Hochfrequenzbanddaten in Schritt 540 und der momentanen Blockdaten, die in Schritt 550 codiert werden erzeugt werden, erzeugt und ausgegeben.
  • 6 ist eine Darstellung einer Audiocodiervorrichtung gemäß einer beispielhaften Ausführungsform der vorliegenden Erfindung.
  • Unter Bezugnahme auf 6 und 4 wird nun die Audiocodiervorrichtung gemäß einer beispielhaften Ausführungsform der vorliegenden Erfindung erläutert.
  • Die Audiocodiervorrichtung gemäß der vorliegenden Erfindung enthält eine Codiereinheit 610, eine TFBR-Einheit 620 und eine Bitstrom-Packeinheit 630.
  • Die TFBR-Einheit 620 enthält eine TF-Band-Tabellen-Erzeugungseinheit 622, eine Einheit 624 zum Suchen nach dem nächstgelegenen Nachbarblock 624 und eine Einheit 626, die über einen redundanten Block entscheidet.
  • Da die Codiereinheit 610 die TF-Band-Tabellenerzeugungseinheit 622, die Einheit 624 zum Suchen nach einem nächstgelegenen Nachbarblock und die Bitstrom-Packeinheit 630 dieselben Funktionen ausführen, die jenen der jeweiligen Module in 3 entsprechen, wird auf eine detaillierte Beschreibung derselben verzichtet.
  • Auf der Basis des nächstgelegenen Nachbarblocks B(mmin, nmin), der durch die Einheit 624 zum Suchen nach einem nächstgelegenen Nachbarblock gefunden wird, ermittelt die Einheit 626, die über einen redundanten Block entscheidet, ob der momentane Block B(i, j) ein redundanter Block ist.
  • D(i, j) der Gleichung 1 bezeichnet den euklidischen Abstand zwischen dem momentanen Block und einem Block, der dem momentanen Block am nächsten gelegen ist, d.h. den euklidischen Abstand zwischen B(i, j) und Bmin(mmin, nmin).
  • Dmin(i, j), das den Minimalwert der Werte D(i, j) hat, die man durch die Gleichung 1 erhält, ist in unten in Gleichung 3 ausgedrückt. Dmin(i, j) = |B(i, j), Ckmin·B(mmin, nmin)| ...(3)
  • Wenn Dmin(i, j) weniger ist als der Schwellenwert Tj, ermittelt die Einrichtung 626, die über einen redundanten Block entscheidet, dass der momentane Block B(i, j) ein redundanter Block ist, und sendet die Indexinformationen mmin, nmin und kmin des nächstgelegenen Blocks, die in der Einheit 624 zum Suchen eines nächstgelegenen Nachbarblocks erzeugt werden, zur Bitstrom-Packeinheit 630. Hier ist der Schwellenwert Tj ein Schwellenwert im Frequenzband j und ein experimentell bestimmter Wert. Bei der vorliegenden Erfindung sind in einem MPEG-Bitstrom die Indexinformationen über den nächstgelegenen Nachbarblock im Feld der Ergänzungsdaten 1 enthalten. Die Informationen können jedoch wahlweise in anderen Feldern als dem Bitstrom enthalten sein.
  • Unter Verwendung der Indexinformationen über den nächstgelegenen Nachbarblock, die von der Einheit 626 gesendet werden, die über einen redundanten Block entscheidet, gibt die Bitstrom-Packeinheit 630 an den Decoder einen Bitstrom aus, der die Indexinformationen mmin, nmin und kmin des nächstgelegenen Nachbarblocks enthält, d.h. einen TFBR-Bitstrom, anstelle der Spektrumsinformationen über den Block B(i, j).
  • 7 ist ein Flussdiagramm der Schritte, die durch ein Audiocodierverfahren gemäß einer weiteren beispielhaften Ausführungsform der vorliegenden Erfindung ausgeführt werden.
  • In Schritt 710 wird eine Zeit-Frequenz-Transformation, wie etwa eine MDCT, die beim Codierschritt des Standes der Technik ausgeführt wird, an einem eingegebenen Zeitdomänen-Audiosignal ausgeführt.
  • In Schritt 720 wird das Datensignal, das in Schritt 710 MDCT-transformiert wurde, in N Frequenzblöcke in jedem Frame unterteilt und die Zeit-Frequenz-Indexkombination, die in 4 dargestellt ist, d.h. die Zeit-Frequenzband-Tabelle, erzeugt. Obwohl die MDCT-Transformation als Zeit-Frequenzband-Transformationsverfahren bei der vorliegenden Ausführungsform verwendet wird, können wahlweise auch andere Zeit-Frequenz-Transformationsverfahren verwendet werden.
  • In Schritt 730 werden auf der Basis der TF-Band-Tabelle, die in Schritt 720 erzeugt wird, vorhergehende Blöcke des momentanen Blocks gesucht und wird ein Block (mmin, nmin), der dem momentanen Block B(i, j) am nächsten gelegen ist, ermittelt.
  • In Schritt 740 wird durch Vergleichen von Dmin (i, j), das der durch Gleichung 3 ermittelte Abstand zwischen dem momentanen Block B(i, j) und dem nächstgelegenen Nachbarblock B(mmin, nmin) ist, der in Schritt 730 ermittelt wird, mit dem Schwellenwert Tj ermittelt, ob der momentane Block ein redundanter Block ist. Wenn Dmin(i, j) geringer ist als der Schwellenwert Tj, wird der Schritt 750 ausgeführt. Ist Dmin(i, j) größer als der Schwellenwert Tj, wird Schritt 760 ausgeführt.
  • In Schritt 750 wird ermittelt, ob der momentane Block ein redundanter Block ist, und es werden die Informationen über den nächstgelegenen Nachbarblock er zeugt. Zudem wird ein Bitstrom, der Indexinformationen mmin und nmin des nächstgelegenen Nachbarblocks, d.h. ein TFBR-Bitstrom, erzeugt und anstelle der Spektrumsinformationen über den Block B(i, j) ausgegeben. Wenn ein Skalierungsfaktor beim Suchen nach dem nächstgelegenen Nachbarblock verwendet wird, enthalten die Informationen wahlweise einen Skalierungsfaktor kmin.
  • In Schritt 760 wird ermittelt, dass der momentane Block ein normaler Block ist, und ein Bitstrom, in den die momentanen Blockdaten eingefügt sind, erzeugt und ausgegeben.
  • 8 ist ein Diagramm einer Audiodecodiervorrichtung gemäß einer beispielhaften Ausführungsform der vorliegenden Erfindung.
  • Die Audiodecodiervorrichtung 800, die in 8 dargestellt ist, enthält eine Bitstrom-Entpackeinheit 810 und einen TFBR-Decoder 820. Der TFBR-Decoder 820 enthält eine Decodiereinheit 822 und eine Einheit 824 zum Rekonstruieren eines redundanten Blocks.
  • Die Datenstrom-Entpackeinheit 810 extrahiert TFBR-Parameter aus einem TFBR-Bitstrom. Der extrahierte TFBR-Parameter wird in die Einheit 824 zum Rekonstruieren des redundanten Blocks eingegeben, und die übrigen Daten werden in die Decodiereinheit 822 eingegeben.
  • Wenn ein momentaner Block B(i, j) ein normaler Block ist, führt die Decodiereinheit 822 einen normalen Audiodecodiervorgang aus. Da die Module, die die Decodiereinheit 822 bilden, dieselben Funktionen ausführen, wie jene eines herkömmlichen Decoders, wird auf eine detaillierte Beschreibung derselben verzichtet.
  • Auf der Basis der decodierten Daten des normalen Blocks und der Daten des redundanten Blocks, die von der Einheit 824 zum Rekonstruieren eines redundanten Blocks eingegeben werden, erzeugt die Decodiereinheit 822 die TF-Band-Tabelle, die in 4 gezeigt ist.
  • Unter Verwendung der TFBR-Parameter, die von Bitstrom-Entpackeinheit 810 eingegeben werden, d.h. der TF-Band-Tabelle, die auf der Basis des Index mmin und nmin des nächstgelegenen Nachbarblocks des redundanten Blocks erzeugt wird, rekonstruiert die Einheit 824 zum Rekonstruieren des redundanten Blocks näherungsweise den redundanten Block. Wird der Skalierungsfaktor kmin verwendet, wenn der TFBR-Codierer die TFBR-Parameter erzeugt, wird die Skalierung des nächstgelegenen Nachbarblocks auf der Basis des Skalierungsfaktors kmin eingestellt, wenn der redundante Block rekonstruiert wird.
  • Wenn der nächstgelegene Nachbarblock des Redundanten Blocks, d.h. der nächstgelegene Nachbarblock, auf den sich bezogen werden soll, um näherungsweise den redundanten Block zu rekonstruieren, ein redundanter Block ist, wird der Block, auf den sich durch den nächstgelegenen Nachbarblock bezogen wird, verwendet; um einen redundanten Block zu rekonstruieren.
  • Die Daten des redundanten Blocks, die in der Einheit 824 zum Rekonstruieren eines redundanten Blocks näherungsweise rekonstruiert werden, werden in die Decodiereinheit 822 eingegeben.
  • Unter Verwendung der Daten des redundanten Blocks, die von der Einheit 824 zum Rekonstruieren eines redundanten Blocks eingegeben werden, rekonstruiert die Decodiereinheit 822 das gesamte Spektrum und erzeugt ein Ausgangsaudiosignal. Unter Verwendung der eingegebenen Daten des redundanten Blocks aktualisiert die Decodiereinheit 822 die TF-Band-Tabelle und verwendet die Tabelle, wenn die Daten des nächsten redundanten Block rekonstruiert werden.
  • 9 ist ein Flussdiagramm der Schritte, die von einem Decodierverfahren gemäß einer beispielhaften Ausführungsform der vorliegenden Erfindung ausgeführt werden.
  • In Schritt 910 wird der TFBR-Bitstrom, der vom Codierer gesendet wird, entpackt und werden die TFBR-Parameter extrahiert.
  • In Schritt 920 wird auf der Basis der extrahierten TFBR-Parameter bestimmt, ob ein Block B(i, j), der momentan decodiert werden soll, ein redundanter Block ist. Wenn bei der vorliegenden Ausführungsform TFBR-Parameter entsprechend dem momentanen Block B(i, j) existieren, wird ermittelt, dass der momentane Block B(i, j) ein redundanter Block ist. Wird ermittelt, dass momentane Block ein redundanter Block ist, wird Schritt 930 ausgeführt, und wenn der momentane Block kein redundanter Block ist, wird Schritt 940 ausgeführt.
  • In Schritt 930 wird auf der Basis der TFBR-Parameter, d.h. des Indexes mmin und nmin des nächstgelegenen Nachbarblocks des redundanten Blocks, der redundante Block rekonstruiert. Wenn der Skalierungsfaktor kmin in den TFBR-Parametern enthalten ist, wird zudem die Skalierung des nächstgelegenen Nachbarblocks auf der Basis des Skalierungsfaktors kmin eingestellt.
  • In Schritt 940 wird ermittelt, dass der momentane Block B(i, j) ein normaler Block ist, und die Decodierung ausgeführt. Zudem wird in Schritt 940 auf der Basis der Daten des redundanten Blocks, die in Schritt 930 rekonstruiert werden, und der decodierten Blockdaten, die TF-Band-Tabelle erzeugt, die in 4 gezeigt ist.
  • In Schritt 950 wird auf der Basis der Daten des normalen Blocks, die in Schritt 940 decodiert werden, und der Daten des redundanten Blocks, die in Schritt 930 rekonstruiert werden, das Spektrum rekonstruiert und auf der Basis des Spektrums ein Ausgangs-Audiosignal erzeugt.
  • 10 ist eine Darstellung einer Decodiervorrichtung gemäß einer weiteren beispielhaften Ausführungsform der vorliegenden Erfindung.
  • Die Audiodecodiervorrichtung 1000, die in 10 gezeigt ist, enthält eine Bitstrom-Entpackeinheit 1010, eine Decodiereinheit 1020 und eine Nachverarbeitungseinheit 1030.
  • Die Bitstrom-Entpackeinheit 1010 empfängt den TFBR-Bitstrom, der in der Bitstrom-Packeinheit 330 von 3 erzeugt wird, und extrahiert TFBR-Parameter aus dem Bitstrom. Die extrahierten TFBR-Parameter werden in die Nachverarbeitungseinheit 1030 eingegeben.
  • Die Decodiereinheit 1020 decodiert einen Bitstrom entsprechend dem Niederfrequenzteil, der von einem herkömmlichen Audiocodierer, wie etwa einem MP3-Codierer, gesendet wird, und sendet diesen zur Nachverarbeitungseinheit 1030.
  • Auf der Basis der Niederfrequenzteil-Daten, die von der Decodiereinheit 1020 eingegeben werden, erzeugt die Nachverarbeitungseinheit 1030 die TF-Band-Tabelle aus 4 und rekonstruiert auf der Basis der TFBR-Parameter mmin und nmin, die von der Bitstrom-Entpackeinheit 1010 eingegeben werden, einen Datenblock entsprechend dem Hochfrequenzteil. Wenn der Skalierungsfaktor kmin in den TFBR-Parametern enthalten ist, wird hier die Skalierung auf der Basis des Skalierungsfaktors kmin eingestellt.
  • Zudem wird auf der Basis der rekonstruierten Hochfrequenzblock-Daten die TF-Band-Tabelle, die zuvor erzeugt wurde, aktualisiert. Die aktualisierte TF-Band-Tabelle wird verwendet, wenn ein nächster Hochfrequenzteil-Block rekonstruiert wird.
  • Da die Parameter mmin, nmin und kmin im Vergleich zur Größe der ursprünglichen Blockinformationen weitaus kleiner sind, wird infolgedessen eine sehr geringe Zahl zusätzlicher Bits verwendet. Während die vorhandene Sendebitrate beibehalten wird, kann demzufolge die Klangqualität wirkungsvoll verbessert werden.
  • Bei der vorliegenden Erfindung zeigt es sich, dass, wenn Hochfrequenzteil-Daten nicht gesendet werden, die Hochfrequenzteil-Daten unter Verwendung der TFBR-Parameter wiederhergestellt werden. Die vorliegende Erfindung kann jedoch wahlweise auch bei einem willkürlichen Frequenzband und -frame, die nicht gesendet werden, verwendet werden.
  • 11 ist ein Flussdiagramm der Schritte, die von einem Decodierverfahren gemäß einer weiteren beispielhaften Ausführungsform der vorliegenden Erfindung ausgeführt werden.
  • In Schritt 1110 wird der Bitstrom entpackt und werden die TFBR-Parameter extrahiert.
  • In Schritt 1120 werden die eingegebenen Niederfrequenzband-Blockdaten decodiert und wird das Spektrum entsprechend dem Niederfrequenzteil erzeugt. Bei der vorliegenden Ausführungsform wird davon ausgegangen, dass der Eingangsbitstrom lediglich die Niederfrequenzband-Daten enthält. Die vorliegende Erfindung kann jedoch wahlweise auch bei einem Bitstrom verwendet werden, der die Daten eines weiteren Frequenzbandes enthält.
  • In Schritt 1130 wird auf der Basis der Niederfrequenzteil-Daten, die in Schritt 1120 decodiert werden, die TF-Band-Tabelle aus 4 erzeugt und auf der Basis der TFBR-Parameter mmin und nmin, die in Schritt 1110 extrahiert werden, und des Niederfrequenzblocks, der in Schritt 1120 decodiert wird, der Datenblock entsprechend dem Hochfrequenzteil rekonstruiert. Wenn der Skalierungsfaktor kmin in den eingegebenen TFBR-Parametern enthalten ist, wird hier die Skalierung auf der Basis des Skalierungsfaktors kmin eingestellt.
  • In Schritt 1140 wird unter Verwendung der Blöcke des Niederfrequenzteils, der in Schritt 1120 decodiert wird, und der Blöcke des Hochfrequenzteils, der in Schritt 1130 rekonstruiert wird, das gesamte Spektrum rekonstruiert. Zudem wird auf der Basis der rekonstruierten Hochfrequenzteil-Blockdaten die TF-Band-Tabelle aktualisiert. Die aktualisierte TF-Band-Tabelle wird verwendet, wenn ein nächster Hochfrequenzteil-Block rekonstruiert wird.
  • Die vorliegende Erfindung ist nicht auf die oben beschriebenen beispielhaften Ausführungsformen beschränkt, und es ist klar, dass Variationen und Abänderungen innerhalb des Geltungsbereiches der vorliegenden Erfindung ausgeführt werden können, wie sie durch die beiliegenden Ansprüche definiert sind. Insbesondere kann die vorliegende Erfindung nicht nur bei MPEG-1 Layer 3, sondern auch bei allen Audiocodiervorrichtungen und -verfahren, wie etwa MPEG-2 AAC, MPEG-4 und WMA angewendet werden.
  • Die vorliegende Erfindung kann als Code ausgeführt sein, der von einem Computer auf einem computerlesbaren Aufzeichnungsmedium gelesen werden kann. Das computerlesbare Aufzeichnungsmedium umfasst sämtliche Arten von Aufzeichnungsmedien, auf denen computerlesbare Daten gespeichert sind. Computerlesbare Aufzeichnungsmedien beinhalten Speichermedien, wie etwa magnetische Speichermedien (z.B. ROMs, Floppy-Disketten, Festplatten und dergleichen), optisch wiederbeschreibbare Medien (z.B. CD-ROMs, DVDs und dergleichen) sowie Trägerwellen (z.B. Sendungen über das Internet). Zudem können die computerlesbaren Aufzeichnungsmedien auf Computersystemen verteilt sein, die durch ein Netzwerk verbunden sind, und können einen computerlesbaren Code in einer verteilten Betriebsart speichern und ausführen.
  • Mit Hilfe des weiterentwickelten Codier- und Decodierverfahrens sowie der Vorrichtung gemäß der vorliegenden Erfindung, die oben beschrieben wurde; kann die Sendebitrate ohne Beeinträchtigung der Tonqualität im Vergleich zu Audiocodecs des Standes der Technik verringert und die Tonqualität verbessert werden, ohne dass die Sendebitrate ansteigt.
  • Obwohl einige wenige bevorzugte Ausführungsformen gezeigt und beschrieben wurden, wird der Fachmann verstehen, dass unterschiedliche Änderungen und Modifikationen vorgenommen werden können, ohne vom Geltungsbereich der Erfindung abzuweichen, wie er in den beiliegenden Ansprüchen definiert ist.
  • Die Aufmerksamkeit gilt sämtlichen Dokumenten und Druckschriften, die zeitgleich oder vor dieser Beschreibung in Verbindung mit dieser Anmeldung eingereicht wurden und die der öffentlichen Einsichtnahme mit dieser Beschreibung zugänglich sind.
  • Sämtliche Merkmale, die in dieser Beschreibung (einschließlich den beiliegenden Ansprüchen und Zeichnungen) erläutert wurden, und/oder alle Schritte des hier beschriebenen Verfahrens oder Vorgangs, können beliebig kombiniert werden, mit Ausnahme von Kombinationen, bei denen sich wenigstens einige dieser Merkmale und/oder Schritte gegenseitig ausschließen.
  • Jedes Merkmal, das in dieser Beschreibung erläutert ist (einschließlich der beiliegenden Ansprüche, der Zusammenfassung und der Zeichnungen), kann durch alternative Merkmale ersetzt werden, die demselben, einem äquivalenten oder ähnlichen Zweck dienen, solange es nicht ausdrücklich anders bemerkt ist. Somit ist, solange es nicht ausdrücklich anders beschrieben ist, jedes erläuterte Merkmal lediglich ein Beispiel einer allgemeinen Reihe von äquivalenten oder ähnlichen Merkmalen.
  • Die vorliegende Erfindung ist nicht auf die Details der vorangehenden Ausführungsformen) beschränkt. Die Erfindung erstreckt sich auf eine neuartige oder jede neuartige Kombination der Merkmale, die in dieser Beschreibung (einschließlich der beiliegenden Ansprüche, der Zusammenfassung und Zeichnungen) erläutert sind, oder auf eine neuartige oder jede neuartige Kombination der Schritte eines so beschriebenen Verfahrens oder Vorgangs. Der Geltungsbereich der Erfindung ist somit lediglich durch die beiliegenden Ansprüche beschränkt.

Claims (36)

  1. Verfahren zum Codieren digitaler Audiosignale, das umfasst: a) auf Basis eines Eingangs-Audiosignals Erzeugen einer Zeit-Frequenzband-Tabelle, wobei jedes Element der Zeit-Frequenzband-Tabelle eine Vielzahl von Spektrumkoeffizienten hat und die Zeit-Frequenzband-Tabelle eine Vielzahl von Frequenzbändern in einem Zeitrahmen des digitalen Audiosignals sowie einer Vielzahl folgender Zeitrahmen abdeckt; b) auf Basis der erzeugten Zeit-Frequenzband-Tabelle Suchen nach einem nächstgelegenen Nachbarblock eines Blocks, der gegenwärtig codiert wird, und Erzeugen von Informationen über den nächstgelegenen Nachbarblock; und c) Erzeugen eines Bitstroms, der die erzeugten Informationen über den nächstgelegenen Nachbarblock enthält.
  2. Verfahren nach Anspruch 1, wobei in Schritt b) die Frequenz eines Blocks, der gegenwärtig codiert wird, einer Schwellenwertfrequenz gleich ist oder darüber liegt und der in Schritt c) erzeugte Bitstrom Blockinformationen über einen Block, der in einem Frequenzband enthalten ist, das unter der Schwellenwertfrequenz liegt, und Informationen über einen nächstgelegenen Nachbarblock eines Blocks enthält, der in einem Frequenzband enthaften ist, das der Schweilenwertfrequenz gleich ist oder darüber liegt.
  3. Verfahren nach Anspruch 1 oder 2, wobei die Informationen über den nächstgelegenen Nachbarblock Indexinformationen des nächstgelegenen Nachbarblocks sind, nach denen in der Zeit-Frequenzband-Tabelle gesucht wird.
  4. Verfahren nach Anspruch 1, 2 oder 3, wobei in Schritt b) ein Suchbereich des nächstgelegenen Nachbarblocks Blöcke vor dem Block enthält, der gegenwärtig codiert wird.
  5. Verfahren nach einem der vorangehenden Ansprüche, wobei in Schritt b) Bestimmung des nächstgelegenen Nachbarblocks auf dem euklidischen Abstand zwischen dem aktuellen Block und einem Objektblock basiert.
  6. Verfahren nach einem der vorangehenden Ansprüche, wobei die Informationen über den nächstgelegenen Nachbarblock Skalierungsfaktorinformationen enthalten.
  7. Verfahren zum Codieren digitaler Audiosignale, das umfasst: a) auf Basis eines Eingangs-Audiosignals Erzeugen einer Zeit-Frequenzband-Tabelle, wobei jedes Element der Zeit-Frequenzband-Tabelle eine Vielzahl von Spektrumkoeffizienten hat und die Zeit-Frequenzband-Tabelle eine Vielzahl von Frequenzbändern in einem Zeitrahmen des digitalen Audiosignals sowie einer Vielzahl folgender Zeitrahmen abdeckt; b) auf Basis der erzeugten Zeit-Frequenzband-Tabelle Suchen nach einem nächstgelegenen Nachbarblock eines Blocks, der gegenwärtig codiert wird; c) auf Basis des gesuchten nächstgelegenen Nachbarblocks Bestimmen, ob ein Block, der gegenwärtig codiert wird, ein redundanter Block ist oder nicht; und d) auf Basis des in Schritt c) bestimmten Ergebnisses Erzeugen eines Ausgangs-Bitstroms.
  8. Verfahren nach Anspruch 7, wobei, wenn in Schritt c) bestimmt wird, dass der gegenwärtig codierte Block der redundante Block ist, der in Schritt c) erzeugte Bitstrom Informationen über den nächstgelegenen Nachbarblock über nach dem in Schritt b) gesuchten nächstgelegenen Nachbarblock anstelle von Informationen über den aktuellen Block enthält.
  9. Verfahren nach Anspruch 8, wobei die Informationen über den nächstgelegenen Nachbarblock Indexinformationen des nächstgelegenen Nachbarblocks sind, nach denen in der Zeit-Frequenzband-Tabelle gesucht wird.
  10. Verfahren nach Anspruch 7, 8 oder 9, wobei, wenn in Schritt c) bestimmt wird, dass der gegenwärtig codierte Block nicht der redundante Block ist, der in Schritt d) erzeugte Bitstrom Informationen über den aktuellen Block enthält.
  11. Verfahren nach einem der Ansprüche 7 bis 10, wobei in Schritt b) ein Suchbereich des nächstgelegenen Nachbarblocks Blöcke vor dem Block enthält, der gegenwärtig codiert wird.
  12. Verfahren nach einem der Ansprüche 7 bis 11, wobei in Schritt b) Bestimmung des nächstgelegenen Nachbarblocks auf dem euklidischen Abstand zwischen dem aktuellen Block und einem Objektblock basiert.
  13. Verfahren nach einem der Ansprüche 7 bis 12, wobei die Informationen über den nächstgelegenen Nachbarblock Skalierungsfaktorinformationen enthalten.
  14. Vorrichtung zum Codieren digitaler Audiosignale, die umfasst: eine Einheit (322) zum Erzeugen einer Zeit-Frequenzband-Tabelle, die so eingerichtet ist, dass sie auf Basis eines Eingangs-Audiosignals eine Zeit-Frequenzband-Tabelle erzeugt, wobei jedes Element der Zeit-Frequenzband-Tabelle eine Vielzahl von Spektrumkoeffizienten hat und die Zeit-Frequenzband-Tabelle eine Vielzahl von Frequenzbändern in einem Zeitrahmen des digitalen Audiosignals sowie einer Vielzahl folgender Zeitrahmen abdeckt; eine Einheit (324) zum Suchen eines nächstgelegenen Nachbarblocks und zum Erzeugen von Informationen über den nächstgelegenen Nachbarblock, die so eingerichtet ist, dass sie auf Basis der erzeugten Zeit-Frequenzband-Tabelle nach einem nächstgelegenen Nachbarblock eines Blocks sucht, der gegenwärtig codiert wird, und Informationen über den nächstgelegenen Nachbarblock erzeugt; und eine Bitstrom-Packeinheit (330), die so eingerichtet ist, dass sie einen Bitstrom erzeugt, der die erzeugten Informationen über den nächstgelegenen Nachbarblock enthält.
  15. Vorrichtung nach Anspruch 14, wobei die Frequenz des Blocks, der gegenwärtig erzeugt wird, einer Schwellenwertfrequenz gleich ist oder darüber liegt und die Bitstrom-Packeinheit einen Bitstrom erzeugt, der Blockinformationen über einen Block, der in einem Frequenzband enthalten ist, das unter der Schwellenwertfrequenz liegt, und Informationen über einen nächstgelegenen Nachbarblock eines Blocks enthält, der in einem Frequenzband enthalten ist, das der Schwellenwertfrequenz gleich ist oder darüber liegt.
  16. Vorrichtung nach Anspruch 14 oder 15, wobei die Informationen über den nächstgelegenen Nachbarblock Indexinformationen des nächstgelegenen Nachbarblocks sind, nach denen in der Zeit-Frequenzband-Tabelle gesucht wird.
  17. Vorrichtung zum Codieren digitaler Audiosignale, die umfasst: eine Einheit (622) zum Erzeugen einer Zeit-Frequenzband-Tabelle, die so eingerichtet ist, dass sie auf Basis eines Eingangs-Audiosignals eine Zeit-Frequenzband-Tabelle erzeugt, wobei jedes Element der Zeit-Frequenzband-Tabelle eine Vielzahl von Spektrumkoeffizienten hat und die Zeit-Frequenzband-Tabelle eine Vielzahl von Frequenzbändern in einem Zeitrahmen des digitalen Audiosignals und einer Vielzahl folgender Zeitrahmen abdeckt; eine Einheit (624) zum Suchen eines nächstgelegenen Nachbarblocks, die so eingerichtet ist, dass sie auf Basis der erzeugten Zeit-Frequenzband-Tabelle nach einem nächstgelegenen Nachbarblock eines Blocks sucht, der gegenwärtig codiert wird; eine Einheit (626), die über einen redundanten Block entscheidet und so eingerichtet ist, dass sie auf Basis des nächstgelegenen Nachbarblocks bestimmt, ob der gegenwärtig codierte Block ein redundanter Block ist oder nicht; und eine Bitstrom-Erzeugungseinheit (630), die so eingerichtet ist, dass sie auf Basis des in der Einheit zum Entscheiden über einen redundanten Block bestimmten Ergebnisses einen Ausgangs-Bitstrom erzeugt.
  18. Vorrichtung nach Anspruch 17, wobei, wenn die Einheit zum Entscheiden über einen redundanten Block bestimmt, dass der gegenwärtig codierte Block der redundante Block ist, die Bitstrom-Erzeugungseinheit Informationen über den nächstgelegenen Nachbarblock, nach dem in der Einheit zum Suchen des nächstgelegenen Nachbarblocks gesucht wird, anstelle von Informationen über den aktuellen Block in den Ausgangs-Bitstrom einschließt.
  19. Vorrichtung nach Anspruch 17 oder 18, wobei, wenn die Einheit zum Entscheiden über Redundanz bestimmt, dass der gegenwärtig codierte Block nicht der redundante Block ist, die Bitstrom-Erzeugungseinheit die Informationen über den aktuellen Block in den Ausgangs-Bitstrom einschließt.
  20. Vorrichtung nach Anspruch 18, wobei die Informationen über den nächstgelegenen Nachbarblock Indexinformationen des nächstgelegenen Nachbarblocks sind, nach denen in der Zeit-Frequenzband-Tabelle gesucht wird.
  21. Decodierverfahren zum Decodieren eines Audiosignals, das zusätzliche Informationen über einen vorgegebenen Bereich des Audiosignals enthält, das umfasst: a) Decodieren eines Blocks, der nicht in dem vorgegebenen Bereich enthalten ist, aus einem Eingangs-Audio-Bitstrom; b) auf Basis der Daten des decodierten Blocks Erzeugen einer Zeit-Frequenzband-Tabelle, die dem vorgegebenen Bereich entspricht, wobei jedes Element der Zeit-Frequenzband-Tabelle eine Vielzahl von Spektrumkoeffizienten hat und die Zeit-Frequenzband-Tabelle eine Vielzahl von Frequenzbändern in einem Zeitrahmen des digitalen Audiosignals sowie einer Vielzahl folgender Zeitrahmen abdeckt; und c) unter Verwendung der erzeugten Zeit-Frequenzband-Tabelle Rekonstruieren eines aktuellen Blocks, der in dem vorgegebenen Bereich enthalten ist, auf Basis der zusätzlichen Informationen über den vorgegebenen Bereich des Audiosignals.
  22. Verfahren nach Anspruch 21, wobei die zusätzlichen Informationen Indexinformationen über einen nächstgelegenen Nachbarblock eines aktuellen Blocks in dem vorgegebenen Bereich enthalten.
  23. Verfahren nach Anspruch 21 oder 22, wobei der vorgegebene Bereich ein Hochfrequenzbereich ist.
  24. Verfahren nach Anspruch 21, 22 oder 23, wobei die in Schritt b) erzeugte Zeit-Frequenzband-Tabelle durch den in Schritt c) rekonstruierten aktuellen Block aktualisiert wird.
  25. Verfahren nach Anspruch 21, 22, 23 oder 24, wobei die zusätzlichen Informationen Skalierungsfaktorinformationen enthalten.
  26. Decodierverfahren zum Decodieren eines digitalen Audiosignals, das umfasst: a) Extrahieren von Informationen über den nächstgelegenen Nachbarblock aus einem Eingangs-Audio-Bitstrom; b) auf Basis des Eingangs-Audio-Datenstroms Erzeugen einer Zeit-Frequenzband-Tabelle, wobei jedes Element der Zeit-Frequenzband-Tabelle eine Vielzahl von Spektrumkoeffizienten hat und die Zeit-Frequenzband-Tabelle eine Vielzahl von Frequenzbändern in einem Zeitrahmen des digitalen Audiosignals sowie einer Vielzahl folgender Zeitrahmen abdeckt; c) auf Basis der extrahierten Informationen über den nächstgelegenen Nachbarblock Bestimmen, ob ein gegenwärtig decodierter Block ein redundanter Block ist oder nicht; und d) wenn der gegenwärtig decodierte Block der redundante Block ist, Rekonstruieren des redundanten Blocks unter Verwendung der erzeugten Zeit-Frequenzband-Tabelle auf Basis der extrahierten Informationen über den nächstgelegenen Nachbarblock.
  27. Verfahren nach Anspruch 26, das des Weiteren das Rekonstruieren eines vollständigen Spektrums, das dem Eingangs-Audio-Bitstrom entspricht, unter Verwendung des rekonstruierten redundanten Blocks umfasst.
  28. Verfahren nach Anspruch 27, wobei Schritt c) des Weiteren umfasst: Aktualisieren der Zeit-Frequenzband-Tabelle auf Basis des rekonstruierten redundanten Blocks.
  29. Verfahren nach Anspruch 27 oder 28, wobei die Informationen über den nächstgelegenen Nachbarblock Skalierungsfaktorinformationen enthalten.
  30. Decodiervorrichtung zum Decodieren eines Audiosignals, das zusätzliche Informationen über einen vorgegebenen Bereich des Audiosignals enthält, das umfasst: eine Decodiereinheit (1020), die so eingerichtet ist, dass sie einen Block, der in dem vorgegebenen Bereich enthalten ist, aus einem Eingangs-Audio-Bitstrom decodiert; und eine Nachverarbeitungseinheit (1030), die so eingerichtet ist, dass sie auf Basis der Daten des decodierten Blocks eine Zeit-Frequenzband-Tabelle erzeugt, die dem vorgegebenen Bereich entspricht, und unter Verwendung der erzeugten Zeit-Frequenzband-Tabelle einen aktuellen Block, der in dem vorgegebenen Bereich enthalten ist, auf Basis der zusätzlichen Informationen über den vorgegebenen Bereich des Audiosignals rekonstruiert, wobei jedes Element der Zeit-Frequenzband-Tabelle eine Vielzahl von Spektrumkoeffizienten hat und die Zeit-Frequenzband-Tabelle eine Vielzahl von Frequenzbändern in einem Zeitrahmen des digitalen Audiosignals sowie einer Vielzahl folgender Zeitrahmen abdeckt.
  31. Vorrichtung nach Anspruch 30, wobei die zusätzlichen Informationen Indexinformationen über einen nächstgelegenen Nachbarblock eines aktuellen Blocks in dem vorgegebenen Bereich enthalten.
  32. Vorrichtung nach Anspruch 30 oder 31, wobei der vorgegebene Bereich ein Hochfrequenzbereich ist.
  33. Vorrichtung nach Anspruch 30, 31 oder 32, wobei die erzeugte Zeit-Frequenzband-Tabelle durch einen rekonstruierten aktuellen Block aktualisiert wird.
  34. Decodiervorrichtung zum Decodieren eines digitalen Audiosignals, die umfasst: eine Einheit (810) zum Extrahieren von Informationen über einen nächstgelegenen Nachbarblock, die so eingerichtet ist, dass sie Informationen über einen nächstgelegenen Nachbarblock aus einem Eingangs-Audio-Bitstrom extrahiert; eine Einheit (822) zum Erzeugen einer Zeit-Frequenzband-Tabelle, die so eingerichtet ist, dass sie auf Basis des Eingangs-Audio-Bitstroms eine Zeit-Frequenzband-Tabelle erzeugt, wobei jedes Element der Zeit-Frequenzband-Tabelle eine Vielzahl von Spektrumkoeffizienten hat und die Zeit-Frequenzband-Tabelle eine Vielzahl von Frequenzbändern in einem Zeitrahmen des digitalen Audiosignals sowie einer Vielzahl folgender Zeitrahmen abdeckt; und eine Einheit (824) zum Rekonstruieren eines redundanten Blocks, die so eingerichtet ist, dass sie auf Basis der extrahierten Informationen über den nächstgelegenen Nachbarblock bestimmt, ob ein gegenwärtig decodierter Block ein redundanter Block ist oder nicht, und wobei die Einheit zum Rekonstruieren des redundanten Blocks so eingerichtet ist, dass sie, wenn der gegenwärtig decodierte Block der redundante Block ist, den redundanten Block unter Verwendung der erzeugten Zeit-Frequenzband-Tabelle auf Basis der extrahierten Informationen über den nächstgelegenen Nachbarblock rekonstruiert.
  35. Vorrichtung nach Anspruch 34, wobei die Einheit zum Rekonstruieren des redundanten Blocks ein vollständiges Spektrum, das dem Eingangs-Audio-Bitstrom entspricht, unter Verwendung des rekonstruierten redundanten Blocks rekonstruiert.
  36. Vorrichtung nach Anspruch 35, wobei die Einheit zum Erzeugen einer Zeit-Frequenzband-Tabelle die Zeit-Frequenzband-Tabelle auf Basis des rekonstruierten redundanten Blocks aktualisiert.
DE60303346T 2002-12-23 2003-12-17 Encodier- und/oder Decodierverfahren für digitale Audiosignale, basierend auf Zeit-Frequenzkorrelation und Vorrichtung hierzu Expired - Lifetime DE60303346T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR2002082380 2002-12-23
KR10-2002-0082380A KR100524065B1 (ko) 2002-12-23 2002-12-23 시간-주파수 상관성을 이용한 개선된 오디오 부호화및/또는 복호화 방법과 그 장치

Publications (2)

Publication Number Publication Date
DE60303346D1 DE60303346D1 (de) 2006-04-13
DE60303346T2 true DE60303346T2 (de) 2006-11-02

Family

ID=36089201

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60303346T Expired - Lifetime DE60303346T2 (de) 2002-12-23 2003-12-17 Encodier- und/oder Decodierverfahren für digitale Audiosignale, basierend auf Zeit-Frequenzkorrelation und Vorrichtung hierzu

Country Status (7)

Country Link
US (1) US20040176961A1 (de)
EP (1) EP1441330B1 (de)
JP (1) JP3824607B2 (de)
KR (1) KR100524065B1 (de)
CN (1) CN1249669C (de)
AT (1) ATE316679T1 (de)
DE (1) DE60303346T2 (de)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100657916B1 (ko) * 2004-12-01 2006-12-14 삼성전자주식회사 주파수 대역간의 유사도를 이용한 오디오 신호 처리 장치및 방법
KR100803205B1 (ko) 2005-07-15 2008-02-14 삼성전자주식회사 저비트율 오디오 신호 부호화/복호화 방법 및 장치
CN100424692C (zh) * 2005-08-31 2008-10-08 中国科学院自动化研究所 音频快速搜索方法
AU2005337961B2 (en) * 2005-11-04 2011-04-21 Nokia Technologies Oy Audio compression
RU2409874C9 (ru) * 2005-11-04 2011-05-20 Нокиа Корпорейшн Сжатие звуковых сигналов
US8260609B2 (en) * 2006-07-31 2012-09-04 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of inactive frames
FR2911228A1 (fr) * 2007-01-05 2008-07-11 France Telecom Codage par transformee, utilisant des fenetres de ponderation et a faible retard.
KR101261524B1 (ko) * 2007-03-14 2013-05-06 삼성전자주식회사 노이즈를 포함하는 오디오 신호를 저비트율로부호화/복호화하는 방법 및 이를 위한 장치
US20100111181A1 (en) * 2008-11-06 2010-05-06 Mediatek Inc. Video processing apparatus and methods
EP2555191A1 (de) 2009-03-31 2013-02-06 Huawei Technologies Co., Ltd. Verfahren und Einrichtung zur Audiosignalentrauschung
WO2010149700A1 (en) * 2009-06-24 2010-12-29 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Audio signal decoder, method for decoding an audio signal and computer program using cascaded audio object processing stages
WO2011000408A1 (en) * 2009-06-30 2011-01-06 Nokia Corporation Audio coding
AU2011226212B2 (en) * 2010-03-09 2014-03-27 Dolby International Ab Apparatus and method for processing an input audio signal using cascaded filterbanks
CA2792368C (en) * 2010-03-09 2016-04-26 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for handling transient sound events in audio signals when changing the replay speed or pitch
EP2545551B1 (de) 2010-03-09 2017-10-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verbesserte magnitude-antwort und zeitliche angleichung in einer auf phase vocoder basierten bandbreitenerweiterung für audiosignale
CN102947882B (zh) * 2010-04-16 2015-06-17 弗劳恩霍夫应用研究促进协会 使用制导带宽扩展和盲带宽扩展生成宽带信号的装置、方法
ES2484795T3 (es) 2010-07-19 2014-08-12 Dolby International Ab Procesamiento de señales de audio durante la reconstrucción de alta frecuencia
US12002476B2 (en) 2010-07-19 2024-06-04 Dolby International Ab Processing of audio signals during high frequency reconstruction
CN103718240B (zh) 2011-09-09 2017-02-15 松下电器(美国)知识产权公司 编码装置、解码装置、编码方法和解码方法
WO2023211443A1 (en) * 2022-04-28 2023-11-02 Innopeak Technology, Inc. Transformer-encoded speech extraction and enhancement

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CH589390A5 (de) * 1975-08-19 1977-06-30 Patelhold Patentverwertung
US4748579A (en) * 1985-08-14 1988-05-31 Gte Laboratories Incorporated Method and circuit for performing discrete transforms
US5632005A (en) * 1991-01-08 1997-05-20 Ray Milton Dolby Encoder/decoder for multidimensional sound fields
CA2088082C (en) * 1992-02-07 1999-01-19 John Hartung Dynamic bit allocation for three-dimensional subband video coding
DE4209544A1 (de) * 1992-03-24 1993-09-30 Inst Rundfunktechnik Gmbh Verfahren zum Übertragen oder Speichern digitalisierter, mehrkanaliger Tonsignale
US5703999A (en) * 1992-05-25 1997-12-30 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Process for reducing data in the transmission and/or storage of digital signals from several interdependent channels
JP3277679B2 (ja) * 1994-04-15 2002-04-22 ソニー株式会社 高能率符号化方法と高能率符号化装置及び高能率復号化方法と高能率復号化装置
JP3237089B2 (ja) * 1994-07-28 2001-12-10 株式会社日立製作所 音響信号符号化復号方法
US5867819A (en) * 1995-09-29 1999-02-02 Nippon Steel Corporation Audio decoder
US6226325B1 (en) * 1996-03-27 2001-05-01 Kabushiki Kaisha Toshiba Digital data processing system
US6233562B1 (en) * 1996-12-09 2001-05-15 Matsushita Electric Industrial Co., Ltd. Audio decoding device and signal processing device for decoding multi-channel signals with reduced memory requirements
FI114248B (fi) * 1997-03-14 2004-09-15 Nokia Corp Menetelmä ja laite audiokoodaukseen ja audiodekoodaukseen
SE512719C2 (sv) * 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
US5960401A (en) * 1997-11-14 1999-09-28 Crystal Semiconductor Corporation Method for exponent processing in an audio decoding system
US6591241B1 (en) * 1997-12-27 2003-07-08 Stmicroelectronics Asia Pacific Pte Limited Selecting a coupling scheme for each subband for estimation of coupling parameters in a transform coder for high quality audio
US6185525B1 (en) * 1998-10-13 2001-02-06 Motorola Method and apparatus for digital signal compression without decoding
JP2001094433A (ja) * 1999-09-17 2001-04-06 Matsushita Electric Ind Co Ltd サブバンド符号化・復号方法

Also Published As

Publication number Publication date
KR100524065B1 (ko) 2005-10-26
EP1441330A2 (de) 2004-07-28
JP3824607B2 (ja) 2006-09-20
EP1441330A3 (de) 2005-04-27
CN1510661A (zh) 2004-07-07
US20040176961A1 (en) 2004-09-09
CN1249669C (zh) 2006-04-05
EP1441330B1 (de) 2006-01-25
DE60303346D1 (de) 2006-04-13
JP2004206129A (ja) 2004-07-22
ATE316679T1 (de) 2006-02-15
KR20040055916A (ko) 2004-06-30

Similar Documents

Publication Publication Date Title
DE60303346T2 (de) Encodier- und/oder Decodierverfahren für digitale Audiosignale, basierend auf Zeit-Frequenzkorrelation und Vorrichtung hierzu
DE60225381T2 (de) Verfahren zur Kodierung von Sprach- und Musiksignalen
DE69737489T2 (de) Formung des erkennbaren Rauschsignals in der Zeitdomäne mittels LPC-Voraussage im Frequenzraum
DE69833834T2 (de) Skalierbares Audiokodier-und Dekodierverfahren und Gerät
DE60310716T2 (de) System für die audiokodierung mit füllung von spektralen lücken
DE19811039B4 (de) Verfahren und Vorrichtungen zum Codieren und Decodieren von Audiosignalen
DE102007017254B4 (de) Vorrichtung zum Kodieren und Dekodieren
DE69933119T2 (de) Verfahren und vorrichtung zur maskierung des quantisierungsrauschens von audiosignalen
DE60103424T2 (de) Verbessern der leistung von kodierungssystemen, die hochfrequenz-rekonstruktionsverfahren verwenden
AU2007206167B2 (en) Apparatus and method for encoding and decoding signal
DE69916321T2 (de) Kodierung eines verbesserungsmerkmals zur leistungsverbesserung in der kodierung von kommunikationssignalen
DE60213394T2 (de) Audiokodierung mit partieller enkryption
DE10297751B4 (de) Audiocodierverfahren und Vorrichtung, die die Harmonischen-Extraktion verwenden
DE19730130A1 (de) Verfahren zum Codieren eines Audiosignals
DE10217297A1 (de) Vorrichtung und Verfahren zum Codieren eines zeitdiskreten Audiosignals und Vorrichtung und Verfahren zum Decodieren von codierten Audiodaten
EP1397799B1 (de) Verfahren und vorrichtung zum verarbeiten von zeitdiskreten audio-abtastwerten
EP2682941A1 (de) Vorrichtung, Verfahren und Computerprogramm für frei wählbare Frequenzverschiebungen in der Subband-Domäne
DE602004002312T2 (de) Verfahren und Vorrichtung zur Bestimmung von Formanten unter Benutzung eines Restsignalmodells
DE60300500T2 (de) Signalisierung von Fensterschaltungen in einem MPEG Layer 3 Audio Datenstrom
CN111210832B (zh) 基于频谱包络模板的带宽扩展音频编解码方法及装置
DE60112407T2 (de) Verfahren und vorrichtung zur konvertierung eines audiosignals zwischen unterschiedlichen datenkompressionsformaten
DE102017204244A1 (de) Codiervorrichtung zum Verarbeiten eines Eingangssignals und Decodiervorrichtung zum Verarbeiten eines codierten Signals
DE602005003358T2 (de) Audiokodierung
EP1247275B1 (de) Vorrichtung und verfahren zum bestimmen eines codierungs-blockrasters eines decodierten signals
RU2414009C2 (ru) Устройство и способ для кодирования и декодирования сигнала

Legal Events

Date Code Title Description
8364 No opposition during term of opposition