DE60303346T2

DE60303346T2 - Encodier- und/oder Decodierverfahren für digitale Audiosignale, basierend auf Zeit-Frequenzkorrelation und Vorrichtung hierzu

Info

Publication number: DE60303346T2
Application number: DE60303346T
Authority: DE
Inventors: Mathew Yeongtong-gu Suwon-si Manu; Ki-seok Yeongtong-gu Suwon-si Chang
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2002-12-23
Filing date: 2003-12-17
Publication date: 2006-11-02
Anticipated expiration: 2023-12-18
Also published as: KR100524065B1; EP1441330A2; JP3824607B2; EP1441330A3; CN1510661A; US20040176961A1; CN1249669C; EP1441330B1; DE60303346D1; JP2004206129A; ATE316679T1; KR20040055916A

Description

Die vorliegende Erfindung bezieht sich auf ein digitales Audio-Codier- und/oder Decodierverfahren sowie eine Vorrichtung zur Ausführung desselben und insbesondere auf ein Audio-Codier- und/oder Decodierverfahren zur Verbesserung der Codier- und Decodiervorrichtung des Standes der Technik derart, dass eine bessere Klangqualität bei geringerer Bitrate erzeugt wird.
Audio-Codierer und -Decodierer, d.h. Audiocodecs, finden weit verbreitete Anwendung, da sie es den Benutzern gestatten, Musikdateien über das Internet mit einer geringeren Bitrate zu senden. Von den Audiocodecs sind MP3-Codecs, die verwendet werden, um Musikdateien über das Internet gemeinsam zu nutzen und Musikdateien in tragbaren Audioabspielgeräten abzuspielen, zum Standard geworden. Die Zahl von MP3-Musikdateien, die im Internet verfügbar sind, und die Benutzer, die MP3-Musikdateien gemeinsam nutzen, nehmen exponential zu.
Auf dem Gebiet der Audiocodierung wurden umfangreiche Untersuchungen und Entwicklungen ausgeführt, um Audiocodecs anzuwenden, die ein Audiosignal bei einer niedrigen Bitrate komprimieren können, während die ursprüngliche Klangqualität erhalten beliebt. Die Audiocodecs beinhalten Motion Picture Experts Group (MPEG)-1 Layer 3, MPEG-2 Advanced Audio Coding (AAC), MPEG-4 und Windows Media Audio (WMA).
1 ist ein Blockschaltbild einer Vorrichtung nach dem Stand der Technik für die MPEG-Audiocodierung. Im folgenden wird hier ein MPEG-1-Layer-3-Audiocodierer, d.h. ein MP3-Audiocodierer, als Beispiel beschrieben.
MP3-Audiocodierer enthalten eine Filterbank 110, eine FFT-Einheit 120 (FFT = Fast Fourier Transformation), eine Psychoakustik-Modelleinheit 130, eine MDCT- Einheit (MDCT = Modified Discrete Cosine Transformation) sowie eine Quantisier- und Huffman-Codiereinheit 150.
Die Filterbank 110 unterteilt ein eingegebenes Zeitdomänen-Audiosignal in 32 Frequenzdomänen-Teilbänder, um die statistische Redundanz eines Audiosignals zu entfernen.
Die FFT-Einheit 120 konvertiert das eingegebene Audiosignal in ein Frequenzdomänen-Spektrum und gibt das Spektrum an die Psychoakustik-Modelleinheit 130 aus.
Um die wahrnehmbare Redundanz zu entfernen, die aus der Charakteristik des menschlichen Gehörs resultiert, ermittelt unter Verwendung des Frequenzspektrums, das von der FFT-Einheit 120 ausgegeben wird, die Psychoakustik-Modelleinheit 130 einen Maskierschwellenwert, der ein Geräuschpegel ist, den der Mensch nicht wahrnehmen kann, d.h. einen Signal-zu-Masken-Abstand (SMR), für jedes Teilband. Der SMR-Wert, der in der Psychoakustik-Modelleinheit 130 ermittelt wird, wird in die Quantisier- und Huffmann-Codiereinheit 150 eingegeben.
Zudem ermittelt die Psychoakustik-Modelleinheit 130, ob ein Fenster umgeschaltet werden soll, oder nicht, indem sie wahrnehmbare Energie berechnet, und gibt die Fensterumschaltinformationen an die MDCT-Einheit 140 aus.
Um die Frequenzauflösung zu verbessern, unterteilt die MDCT-Einheit 140 die Teilbänder, die in der Filterbank 110 unterteilt werden, in feinere Frequenzbänder mit Hilfe der Fensterumschaltinformationen, die von der Psychoakustik-Modelleinheit 130 eingegeben werden.
Auf der Basis des SMR-Wertes, der von der Psychoakustik-Modelleinheit 140 eingegeben wird, verarbeitet die Quantisierungs- und Huffman-Codiereinheit 150 die Frequenzdomänendaten, die von der MDCT-Einheit 140 nach der MDTC-Transformation eingegeben werden, durch Ausführung einer Bitzuordnung zum Entfernen wahrnehmbarer Redundanz und Quantisierung für die Audiosignalcodierung.
Das Audiocodierverfahren, bei dem ein psychoakustische Model zur Anwendung gelangt, das in 1 dargestellt ist, ist im US-Patent No. 6.092.041 beschrieben. Da die Audiocodecs, wie etwa der MP3-Codierer, der in 1 gezeigt ist, die Codierung und die Decodierung bei niedrigen Bitraten ausführen, wird die Audioqualität beeinträchtigt.
Gemäß der vorliegenden Erfindung werden eine Vorrichtung und ein Verfahren angegeben, wie sie in den beiliegenden Ansprüchen definiert sind. Bevorzugte Merkmale der Erfindung werden aus den abhängigen Ansprüchen und der folgenden Beschreibung verständlich.
Die vorliegende Erfindung gibt ein Audiocodierverfahren und eine Audiocodiervorrichtung an, mit denen das Leistungsvermögen der Codiervorrichtung des Standes der Technik so verbessert wird, dass bei einer niedrigeren Bitrate eine bessere Tonqualität erzeugt wird.
Die vorlegende Erfindung gibt zudem ein Audiodecodierverfahren und eine Audiodecodiervorrichtung an, mit denen das Leistungsvermögen der Decodiervorrichtung des Standes der Technik so verbessert wird, das bei einer niedrigeren Bitrate eines bessere Tonqualität erzeugt wird.
Gemäß einem Aspekt der vorliegenden Erfindung wird ein Verfahren zum Codieren digitaler Audiosignale angegeben, das umfasst: (a) auf Basis eines Eingangs-Audiosignals Erzeugen einer Zeit-Frequenzband-Tabelle, wobei jedes Element der Zeit-Frequenzband-Tabelle eine Vielzahl von Spektrumkoeffizienten hat und die Zeit-Frequenzband-Tabelle eine Vielzahl von Frequenzbändern in einem Zeitrahmen des digitalen Audiosignals sowie einer Vielzahl folgender Zeitrahmen abdeckt; (b) auf Basis der erzeugten Zeit-Frequenzband-Tabelle Suchen nach einem nächstgelegenen Nachbarblock eines Blocks, der gegenwärtig codiert wird, und Erzeugen von Informationen über den nächstgelegenen Nachbarblock; und (c) Erzeugen eines Bitstroms, der die erzeugten Informationen über den nächstgelegenen Nachbarblock enthält.
Gemäß einem weiteren Aspekt der vorliegenden Erfindung wird ein Verfahren zum Codieren digitaler Audiosignale angegeben, das umfasst: (a) auf Basis eines Eingangs-Audiosignals Erzeugen einer Zeit-Frequenzband-Tabelle, wobei jedes Element der Zeit-Frequenzband-Tabelle eine Vielzahl von Spektrumkoeffizienten hat und die Zeit-Frequenzband-Tabelle eine Vielzahl von Frequenzbändern in einem Zeitrahmen des digitalen Audiosignals sowie einer Vielzahl folgender Zeitrahmen abdeckt; (b) auf Basis der erzeugten Zeit-Frequenzband-Tabelle Suchen nach einem nächstgelegenen Nachbarblock eines Blocks, der momentan codiert wird; (c) auf Basis des nächstgelegenen Nachbarblocks, nach dem gesucht wird, Ermitteln, ob ein Block, der momentan codiert wird, ein redundanter Block ist, oder nicht; und (d) auf Basis des Ergebnisses, das in Schritt (c) ermittelt wurde, Erzeugen eines Ausgangs-Bitstroms.
Gemäß einem weiteren Aspekt der vorliegenden Erfindung; wird eine Vorrichtung zum Codieren digitaler Audiosignale angegeben, die enthält: eine Einheit zum Erzeugen einer Zeit-Frequenzband-Tabelle, die so eingerichtet ist, dass sie auf Basis eines Eingangs-Audiosignals eine Zeit-Frequenzband-Tabelle erzeugt, wobei jedes Element der Zeit-Frequenzband-Tabelle eine Vielzahl von Spektrumkoeffizienten hat und die Zeit-Frequenzband-Tabelle eine Vielzahl von Frequenzbändern in einem Zeitrahmen des digitalen Audiosignals sowie einer Vielzahl folgender Zeitrahmen abdeckt; eine Einheit zum Suchen eines nächstgelegenen Nachbarblocks und zum Erzeugen von Informationen über den nächstgelegenen Nachbarblock, die so eingerichtet ist, dass sie auf Basis der erzeugten Zeit-Frequenzband-Tabelle nach einem nächstgelegenen Nachbarblock eines Blocks sucht, der gegenwärtig codiert wird, und Informationen über den nächstgelegenen Nachbarblock erzeugt; und eine Bitstrom-Packeinheit, die so eingerichtet ist, dass sie einen Bitstrom erzeugt, der die erzeugten Informationen über den nächstgelegenen Nachbarblock enthält.
Gemäß einem weiteren Aspekt der vorliegenden Erfindung wird eine Vorrichtung zum Codieren digitaler Audiosignale angegeben, die enthält: eine Einheit zum Erzeugen einer Zeit-Frequenzband-Tabelle, die so eingerichtet ist, dass sie auf Basis eines Eingangs-Audiosignals eine Zeit-Frequenzband-Tabelle erzeugt, wobei jedes Element der Zeit-Frequenzband-Tabelle eine Vielzahl von Spektrum koeffizienten hat und die Zeit-Frequenzband-Tabelle eine Vielzahl von Frequenzbändern in einem Zeitrahmen des digitalen Audiosignals und einer Vielzahl folgender Zeitrahmen abdeckt; eine Einheit zum Suchen eines nächstgelegenen Nachbarblocks, die so eingerichtet ist, dass sie auf Basis der erzeugten Zeit-Frequenzband-Tabelle nach einem nächstgelegenen Nachbarblock eines Blocks sucht, der gegenwärtig codiert wird; eine Einheit, die über einen redundanten Block entscheidet und so eingerichtet ist, dass sie auf Basis des nächstgelegenen Nachbarblocks bestimmt, ob der gegenwärtig codierte Block ein redundanter Block ist oder nicht; und eine Bitstrom-Erzeugungseinheit, die so eingerichtet ist, dass sie auf Basis des in der Einheit zum Entscheiden über einen redundanten Block bestimmten Ergebnisses einen Ausgangs-Bitstrom erzeugt.
Gemäß einem weiteren Aspekt der vorliegenden Erfindung wird ein Decodierverfahren zum Decodieren eines Audiosignals, das zusätzliche Informationen über einen vorgegebenen Bereich des Audiosignals enthält, angegeben, das umfasst: (a) Decodieren eines Blocks, der nicht in dem vorgegebenen Bereich enthalten ist, aus einem Eingangs-Audio-Bitstrom; (b) auf Basis der Daten des decodierten Blocks Erzeugen einer Zeit-Frequenzband-Tabelle, die dem vorgegebenen Bereich entspricht, wobei jedes Element der Zeit-Frequenzband-Tabelle eine Vielzahl von Spektrumkoeffizienten hat und die Zeit-Frequenzband-Tabelle eine Vielzahl von Frequenzbändern in einem Zeitrahmen des digitalen Audiosignals sowie einer Vielzahl folgender Zeitrahmen abdeckt; und (c) unter Verwendung der erzeugten Zeit-Frequenzband-Tabelle Rekonstruieren eines aktuellen Blocks, der in dem vorgegebenen Bereich enthalten ist, auf Basis der zusätzlichen Informationen über den vorgegebenen Bereich des Audiosignals.
Gemäß einem zusätzlichen Aspekt der vorliegenden Erfindung wird ein Decodierverfahren zum Decodieren eines digitalen Audiosignals angegeben, das umfasst: (a) Extrahieren von Informationen über den nächstgelegenen Nachbarblock aus einem Eingangs-Audio-Bitstrom; (b) auf Basis des Eingangs-Audio-Datenstroms Erzeugen einer Zeit-Frequenzband-Tabelle, wobei jedes Element der Zeit-Frequenzband-Tabelle eine Vielzahl von Spektrumkoeffizienten hat und die Zeit-Frequenzband-Tabelle eine Vielzahl von Frequenzbändern in einem Zeitrahmen des digitalen Audiosignals sowie einer Vielzahl folgender Zeitrahmen abdeckt; (c) auf Basis der extrahierten Informationen über den nächstgelegenen Nachbarblock Bestimmen, ob ein gegenwärtig decodierter Block ein redundanter Block ist oder nicht; und (d) wenn der gegenwärtig decodierte Block der redundante Block ist, Rekonstruieren des redundanten Blocks unter Verwendung der erzeugten Zeit-Frequenzband-Tabelle auf Basis der extrahierten Informationen über den nächstgelegenen Nachbarblock. Das Verfahren kann zudem das Rekonstruieren eines gesamten Spektrums entsprechend dem Eingangs-Audio-Bitstrom unter Verwendung des rekonstruierten redundanten Blocks umfassen.
Gemäß einem Aspekt der vorliegenden Erfindung wird eine Decodiervorrichtung zum Decodieren eines Audiosignals, das zusätzliche Informationen über einen vorgegebenen Bereich des Audiosignals enthält, angegeben, das umfasst: eine Decodiereinheit, die so eingerichtet ist, dass sie einen Block, der in dem vorgegebenen Bereich enthalten ist, aus einem Eingangs-Audio-Bitstrom decodiert; und eine Nachverarbeitungseinheit; die so eingerichtet ist, dass sie auf Basis der Daten des decodierten Blocks eine Zeit-Frequenzband-Tabelle erzeugt, die dem vorgegebenen Bereich entspricht, und unter Verwendung der erzeugten Zeit- Frequenzband-Tabelle einen aktuellen Block, der in dem vorgegebenen Bereich enthalten ist, auf Basis der zusätzlichen Informationen über den vorgegebenen Bereich des Audiosignals rekonstruiert, wobei jedes Element der Zeit-Frequenzband-Tabelle eine Vielzahl von Spektrumkoeffizienten hat und die Zeit-Frequenzband-Tabelle eine Vielzahl von Frequenzbändern in einem Zeitrahmen des digitalen Audiosignals sowie einer Vielzahl folgender Zeitrahmen abdeckt.
Gemäß einem weiteren Aspekt der vorliegenden Erfindung wird eine Decodiervorrichtung zum Decodieren eines digitalen Audiosignals, angegeben, die umfasst: eine Einheit zum Extrahieren von Informationen über einen nächstgelegenen Nachbarblock, die so eingerichtet ist, dass sie Informationen über einen nächstgelegenen Nachbarblock aus einem Eingangs-Audio-Bitstrom extrahiert; eine Einheit zum Erzeugen einer Zeit-Frequenzband-Tabelle, die so eingerichtet ist, dass sie auf Basis des Eingangs-Audio-Bitstroms eine Zeit-Frequenzband-Tabelle erzeugt, wobei jedes Element der Zeit-Frequenzband-Tabelle eine Vielzahl von Spektrumkoeffizienten hat und die Zeit-Frequenzband-Tabelle eine Vielzahl von Frequenzbändern in einem Zeitrahmen des digitalen Audiosignals sowie einer Vielzahl folgender Zeitrahmen abdeckt; und eine Einheit zum Rekonstruieren eines redundanten Blocks, die so eingerichtet ist, dass sie auf Basis der extrahierten Informationen über den nächstgelegenen Nachbarblock bestimmt, ob ein gegenwärtig decodierter Block ein redundanter Block ist oder nicht, und wobei die Einheit zum Rekonstruieren des redundanten Blocks so eingerichtet ist, dass sie, wenn der gegenwärtig decodierte Block der redundante Block ist, den redundanten Block unter Verwendung der erzeugten Zeit-Frequenzband-Tabelle auf Basis der extrahierten Informationen über den nächstgelegenen Nachbarblock rekonstruiert.
Zum besseren Verständnis der Erfindung und um zu zeigen, wie die Ausführungsformen derselben in die Praxis umgesetzt werden können, wird nun auf beispielhaft auf die beiliegenden Zeichnungen Bezug genommen.
1 ist ein Blockschaltbild einer MPEG-Audio-Codiervorrichtung gemäß dem Stand der Technik;
2 ist ein Diagramm zur Erläuterung eines Spektrumsband-Replikationsverfahrens;
3 ist ein Diagramm einer Codiervorrichtung gemäß einer beispielhaften Ausführungsform der vorliegenden Erfindung;
4 ist ein Diagramm, das eine Zeit-Frequenzband-Tabelle zeigt, die bei der vorliegenden Erfindung Verwendung findet;
5 ist ein Flussdiagramm der Schritte, die von einem Codierverfahren gemäß einer beispielhaften Ausführungsform der vorliegenden Erfindung ausgeführt werden;
6 ist ein Diagramm einer Codiervorrichtung gemäß einer weiteren beispielhaften Ausführungsform der vorliegenden Erfindung;
7 ist ein Flussdiagramm der Schritte, die von einem Codierverfahren gemäß einer weiteren beispielhaften Ausführungsform der vorliegenden Erfindung ausgeführt werden;
8 ist ein Diagramm einer Decodiervorrichtung gemäß einer beispielhaften Ausführungsform der vorliegenden Erfindung;
9 ist ein Flussdiagramm der Schritte, die von einem Decodierverfahren gemäß einer beispielhaften Ausführungsform der vorliegenden Erfindung ausgeführt werden;
10 ist ein Diagramm einer Decodiervorrichtung gemäß einer weiteren beispielhaften Ausführungsform der vorliegenden Erfindung; und
11 ist ein Flussdiagramm der Schritte, die von einem Decodierverfahren gemäß einer weiteren exemplarischen Ausführungsform der vorliegenden Erfindung durchgeführt werden.
Sprachcodecs und Videocodecs verwenden die Zeitkorrelation zwischen Signalabtastungen, um Daten zu komprimieren. Sprachcodecs verwenden ein lineares Prädiktionskoeffizient-Verfahren, um die Kompression auszuführen. Daneben verwenden Videocodecs die Bewegungsmessung, um die Zeitkorrelation auszuführen.
Im allgemeinen ist die Verwendung der Zeitkorrelation für die Datenkompression für Audiocodecs ungeeignet, da Eigenschaften eines Audiosignals dynamisch sind und eine geringere Zeitkorrelation aufweisen. In einer Frequenztransformationsdomäne ist jedoch ein Teilbanddatensignal im Vergleich zu jenen in einer Zeitdomäne im wesentlichen statisch. Demzufolge wird das lineare Prädiktionsverfahren, das die Korrelation zwischen Frames verwendet, in der Frequenztransformationsdomäne benutzt.
Um beispielsweise ein besseres Kompressionsverhältnis zu erreichen, führt MPEG-2 AAC eine lineare Prädiktion für jeden Transformationskoeffizienten aus. Um zudem eine Langzeit-Periodizität zu entfernen, verwendet MPEG-4 AAC einen Langzeit-Prädiktor, der dem linearen Prädiktionsverfahren gleicht.
Unter Bezugnahme auf 2 wird nun ein Spektumsband-Replikations- (SBR-) Verfahren erläutert, das die Ähnlichkeit von Spektrumkoeffizienten verwendet.
Das SBR-Verfahren verbessert die Leitungsfähigkeit des Audio- und des Videocodecs bei einer niedrigen Bitrate durch Erhöhen eines Audiobandes bei einer gegebenen Bitrate oder durch Verbessern der Codiereffizienz auf einer gegebe nen Qualitätsebene. Siehe auch Dietz et. al. "Spectral Band Replication, a Novel Approach in Audio Coding", AES Convention Paper 5533, Mai 2002.
Gemäß dem SBR-Verfahren, das in 2 gezeigt ist, codiert ein Codierer nicht den Hochfrequenzteil eines Frequenzspektrums, sondern lediglich den Niederfrequenzteil, und sendet anschließend das Signal. Wenn das Signal decodiert wird, wird anschließend der Hochfrequenzteil, der nicht gesendet wurde, auf der Basis des Spektrums des Niederfrequenzteils rekonstruiert.
Beim Codierverfahren des Standes der Technik codiert beispielsweise ein MP3-Codierer, der das SBR-Verfahren verwendet, einen Teil eines Musiksignals von 0 bis 8 kHz. Die MP3-Datei, in der lediglich der Teil von 0 bis 8 kHz codiert ist, kann durch einen Decoder des Standes der Technik decodiert werden. Daher ist das SBR-Verfahren mit MP3 des Standes der Technik kompatibel. Beim SBR-Verfahren wird, um den Hochfrequenzteil, d.h. der Teil von 8 bis 18 kHz zu rekonstruieren, die harmonische Struktur des Spektrums und zudem das decodierte Signal von 0 bis 8 kHz verwendet.
Wenn das SBR-Verfahren angewendet wird, kann die schmale Audiobandbreite, die bei einer niedrigen Bitrate durch einen Codec erzeugt wird, der das wahrnehmbare Codierverfahren verwendet, derart erweitert werden, dass eine analoge FM-Audiobandbreite (15 kHz) oder mehr erzeugt wird. Zudem verbessert das SBR-Verfahren die Leistungsfähigkeit eines schmalbandigen Sprachcodecs, wobei es beispielsweise möglich ist, einen zugewiesenen Sprachkanal vorzusehen, der eine Audiobandbreite von 12 kHz hat, die bei einer mehrsprachigen Rundsendung verwendet wird.
Obwohl zusätzliche Codiererinformationen für die Leitung des Decodiervorgangs teilweise im Codierer verarbeitet werden, werden die meisten Schritte des SBR-Verfahrens im Decoder ausgeführt.
Vom technischen Standpunkt aus gesehen, dient das SBR-Verfahren der effizienten Codierung eines Hochfrequenzsignals in einem Audiokompressions-Algorithmus. Eine Codiervorrichtung, die das SBR-Verfahren verwendet, sendet lediglich den Niederfrequenzteil eines Spektrums. Der ausgelassene Hochfrequenzteil wird bei einem Decodiervorgang im SBR-Decoder erzeugt. Anstelle der Sendung des Hochfrequenzteils, analysiert der Decodierer das Spektrum des Niederfrequenzteils, der vom Codierer gesendet wurde und rekonstruiert den Hochfrequenzteil.
Um eine genaue Rekonstruktion des Hochfrequenzteils zu garantieren, werden einige Anweisungsinformationen als Bitstrom gesendet, der mit einer niedrigen Bitrate codiert ist. Infolgedessen ermöglicht das SBR-Verfahren die Codierung des gesamten Bandes eines Audiosignals bei einer äußerst geringen Datenrate, und stellt gleichzeitig eine deutlich verbesserte Kompressionswirkung im Vergleich zu den MP3-Codierern des Standes der Technik zur Verfügung.
Somit verwendet der LPC-Algorithmus die Zeitkorrelation, während der SBR-Algorithmus die Frequenzkorrelation eines Signals benutzt.
Ein Algorithmus gemäß der vorliegenden Erfindung verwendet sowohl Zeit- als auch Frequenzabhängigkeiten eines Audiosignals zur selben Zeit. Unter Bezugnahme auf 3 bis 11 werden nun beispielhafte Ausführungsformen gemäß der vorliegenden Erfindung erläutert.
3 ist eine Darstellung einer beispielhaften Ausführungsform der vorliegenden Erfindung.
Unter Bezugnahme auf 3 und 4 wird nun ein Audiocodierverfahren gemäß einer beispielhaften Ausführungsform der vorliegenden Erfindung erläutert.
Die Codiervorrichtung gemäß der vorliegenden Erfindung enthält eine Codiereinheit 310, eine Zeit-Frame-Band-Replikations- (TFBR-) Einheit 320 und eine Bitstrom-Packeinheit.
Die Codiereinheit 310 führt eine Funktion ähnlich dem Audiocodierer des Standes der Technik aus, d.h. dem Audiocodierer, der in 1 gezeigt ist. Demzufolge wird auf eine detaillierte Beschreibung der Funktion der Codiereinheit 310 verzichtet.
Wenngleich der Audiocodierer, der in 1 gezeigt ist, bei der vorliegenden Ausführungsform verwendet wird, können andere Audiocodierer ebenfalls verwendet werden.
Die TFBR-Einheit 320 enthält eine Einheit 322 zum Erzeugen einer Zeit-Frequenzband-Tabelle und eine Einheit 324 zum Suchen eines nächstgelegenen Nachbarblocks und zum Erzeugen von Informationen über den nächstgelegenen Nachbarblock.
Die Einheit 322 zum Erzeugen einer Zeit-Frequenzband-Tabelle unterteilt das Datensignal, das in der Codiereinheit MDCT-transformiert wird, in N Frequenzblöcke in jedem Frame, so dass die Zeit-Frequenz-Indexkombination, d.h. eine Zeit-Frequenz- (TF-) Band-Tabelle erzeugt wird, die in 4 gezeigt ist.
Obwohl die MDCT-Transformation als Zeit-Frequenz-Transformationsverfahren bei der vorliegenden Ausführungsform verwendet wird, können auch andere Zeit-Frequenz-Transformationsverfahren verwendet werden.
Nachdem bei der vorliegenden Ausführungsform die MDCT-Einheit der Codiereinheit das Audiosignal in eine Vielzahl von Bändern unterteilt hat, hat jedes Band eine Vielzahl von Spektrumkoeffizienten. Obwohl Bänder mit einer identischen Breite bei der vorliegenden Erfindung verwendet werden, können ebenfalls Bänder mit einer Vielfalt von Breiten verwendet werden.
In 4 ist i ein Frameindex, und j = 0, 1, 2, ..., j – 1, j, j + 1, ..., N ist ein Frequenzblockindex eines Frames. Hier kennzeichnet i einen momentanen Frame, in dem eine Codierung ausgeführt wird, und i – 1 sowie i + 1 kennzeichnen den vorangehenden Frame bzw. den nächsten Frame. Daneben kennzeichnet j ein Frequenzband, in dem die Codierung ausgeführt wird, j = 0 kennzeichnet das erste Frequenzband in einem Frame, und j bezeichnet ebenfalls ein Frequenzband eines Blocks, der derzeit codiert werden soll. Zudem kennzeichnet j – 1 das vorhergehende Frequenzband.
Beispielsweise kennzeichnet B(i, j) von 4 einen Block entsprechend einem j-ten Frequenzband in einem i-ten Frame, wobei die Zahl der Spektrumkoeffizienten in jedem Block B(i, j) identisch ist.
Das TFBR-Verfahren, bei dem die TF-Band-Tabelle verwendet wird, die in 4 gezeigt ist, wird nun detaillierter beschrieben.
Das TFBR-Verfahren gemäß der vorliegenden Erfindung verwendet sowohl die Zeitkorrelation zwischen Frames als auch die Spektrumsähnlichkeit zwischen Frequenzbändern. Zudem nutz die vorliegende Erfindung die Tatsache, dass der Block B(i, j) einen Wert hat, der dem Wert eines Blocks unter den vorherigen Blöcken gleicht. Dies basiert auf den folgenden Tatsachen.

1. Das Sektrum des Hochfrequenzteils und jenes des Niederfrequenzteils in einem Signal haben eine inhärente Ähnlichkeit.
2. Obwohl das gesamte Spektrum jedes Frames unterschiedlich ist, ist ein Teil des Spektrums eines momentanen Frames ähnlich einem Teil des Spektrums des vorhergehenden Frames.

Durch Verwendung der folgenden Gleichung 1 sucht die Einheit 324 zum Suchen eines nächstgelegenen Nachbarblocks und zum Erzeugen von Informationen über den nächstgelegenen Nachbarblock die vorhergehenden Blöcke die vorhergehenden Blöcke nach einem Block ab, der sich vom momentanen Block am wenigsten unterscheidet. Hier enthalten die vorhergehenden Blöcke nicht nur j vorhergehende Blöcke im momentanen Frame, sondern auch die Blöcke einer vorbestimmten Zahl vorhergehender Frames. D(i, j) = {|B(i, j), Ck·B(m, n)|} ...(1)wobei B(m, n) einen n-ten Block eines m-ten Frames kennzeichnet.
Wenn hier der m-te Frame ein momentaner Frame ist, dann sind m = i und n = 0, 1, ..., j – 1. Wenn der m-te Frame ein vorhergehender Frame ist, dann sind m = i – 1, i – 2, i – M + 1 und n = 0, 1, ..., N – 1. Ck ist ein Satz von Gewichtungsfaktoren und k = 0, 1, ..., K – 1.
Die Einheit 324 zum Suchen eines nächstgelegenen Nachbarblocks und zum Erzeugen von Informationen über den nächstgelegenen Nachbarblock ermittelt, ob der Block B(i, j), der momentan codiert wird, im Hochfrequenzband enthalten ist, oder nicht. Ist der momentane Block B(i, j) im Hochfrequenzband enthalten, d.h. ist j größer oder gleich einer vorbestimmten Frequenz j_TH, erhält man die Werte m, n und k, die die Differenz zwischen B(i, j) und C_kB(m, n) minimieren. Die Werte m, n und k, die D(i, j) minimieren, sind mit m_min, n_min bzw. k_min gekennzeichnet. Die bestimmten m_min und n_min werden als Index des Blocks bezeichnet, der sich am wenigsten vom momentanen Block B(i, j) unterscheidet.
Es wird bei der vorliegenden Ausführungsform, ob nach einem nächstgelegenen Nachbarblock gesucht werden soll, oder nicht, gemäß der Tatsache bestimmt, ob das Frequenzband des momentanen Blocks B(i, j) größer oder gleich einer Schwellenfrequenz j_TH ist, oder nicht, d.h. ob der momentane Block B(i, j) im Hochfrequenzband enthalten ist, oder nicht. Es kann jedoch auch, ob nach einem nächstgelegenen Nachbarblock gesucht werden soll, auf der Basis dessen bestimmt werden, ob der momentane Block in einem willkürlichen Frequenzband und Zeitdomäne enthalten ist.
Die Funktion |x,y|, die in Gleichung 1 verwendet wird, ist eine Abstandsfunktion. Bei der vorliegenden Erfindung bedeutet die Funktion eine euklidische Abstandsfunktion gemäß der folgenden Gleichung 2. Es besteht jedoch die Möglichkeit, wahlweise ein Verfahren zur Klassifikation des nächstgelegenen Nachbars unter Verwendung einer gewichteten euklidischen Abstandsfunktion anzuwenden.
Die Gleichung 2 besteht aus einem n-dimensionalen Eigenschaftsraum und zeigt einen geometrischen Abstand zwischen zwei Punkten x = (x1, x2, x3, ..., xn) und y = (y1, y2, y3, ..., yn).
Die Einheit 324 zum Suchen eines nächstgelegenen Nachbarblocks und zum Erzeugen von Informationen über den nächstgelegenen Nachbarblock sucht nach einem Block, der den geringsten Abstand aus den Blöcken des vorhergehenden Frames hat, und die vorhergehenden Blöcke des momentanen Frames mit Hilfe der unten aufgeführten Gleichung 3. Der nächstgelegene Nachbarblock, der durch die Einheit 324 zum Suchen eines nächstgelegenen Nachbarblocks bestimmt wird, wird als B(m_min, n_min) bezeichnet.
D(i, j) der Gleichung 1 ist der euklidische Abstand zwischen dem i, j-ten Block und einem zum i, j-ten Block nächstgelegenen Block, d.h. der euklidische Abstand zwischen B(i, j) und B_min(m_min, n_min)
D_min(i, j), der den Minimalwert aus den D(i, j)-Werten hat, die man durch die Gleichung 1 erhält, ist in der Gleichung 3 unten dargestellt. D(i, j) = |B(i, j), Ckmin·B(mmin + nmin)| ...(3)
Die Bitstrom-Packeinheit 330 gibt an den Decoder einen Bitstrom aus, der die Indexinformationen m_min, n_min und k_min des nächstgelegenen Nachbarblocks enthält, d.h. einen TFBR-Bitstrom, anstelle der Spektrumsinformationen über den Block B(i, j). Hier wird lediglich der Teil des Audiosignals, der dem Frequenzband entspricht, das geringer ist als j_TH, codiert und im Ausgangs-Bitstrom eingebunden, wobei der Teil größer oder gleich t_TH nicht im Bitstrom enthalten ist.
Wenn ein beim Suchen nach einem nächstgelegenen Nachbarblock kein Skalierungsfaktor verwendet wird, sind lediglich die Indexinformationen m_min und n_min enthalten.
Bei der vorliegenden Ausführungsform sind bei einem MPEG-Bitstrom die Informationen über den nächstgelegenen Nachbarblock in einem Field enthalten, das Ergänzungsdaten 1 genannt wird. Die Informationen können jedoch wahlweise in anderen Feldern als dem Bitstrom enthalten sein.
Wenngleich die Objekte zur Suche nach einem nächstgelegenen Nachbarblock bei der vorliegenden Ausführungsform vorangehende Blöcke sind, ist es ebenfalls möglich, wahlweise nachfolgende Blöcke für einen nächstgelegenen Nachbarblock zu suchen.
5 ist ein Flussdiagramm eines Audiocodierverfahrens gemäß einer beispielhaften Ausführungsform der vorliegenden Erfindung.
In einem Schritt 510 wird ein Audiosignal eingegeben und eine MDCT, die beim Audiocodierschritt des Standes der Technik ausgeführt wird, am eingegebenen Zeitdomänen-Audiosignal ausgeführt.
In Schritt 520 wird das Datensignal, das einer MDCT in Schritt 510 unterzogen wurde, in N Frequenzblöcke in jedem Frame unterteilt und die Zeit-Frequenz-Indexkombination, die in 4 gezeigt ist, d.h. die Zeit-Frequenzband-Tabelle, erzeugt. Obwohl die MDCT als Zeit-Frequenzband-Transformationsverfahren bei der vorliegenden Ausführungsform verwendet wird, können wahlweise ebenfalls andere Zeit-Frequenz-Transformationsverfahren verwendet werden.
In Schritt 530 wird ermittelt, ob die Frequenz des momentanen Blocks B(i, j) größer oder gleich der Schwellenfrequenz j_TH ist. Die Schwellenfrequenz j_TH ist ein Schwellenfrequenzwert zur Unterscheidung eines Niederfrequenzteils von einem Hochfrequenzteil. Wenn der momentane Block im Hochfrequenzband enthalten ist, wird Schritt 540 ausgeführt, und wenn er im Niederfrequenzband enthalten ist, wird Schritt 550 ausgeführt.
Wenngleich bei der vorliegenden Ausführungsform ermittelt wird, ob der momentane Block B(i, j) im Hochfrequenzband enthalten ist, kann ebenfalls ermittelt wer den, ob der Block in einem willkürlichen Frequenzband und Zeitdomäne enthalten ist, oder nicht.
In Schritt 540 wird auf der Basis der Zeit-Frequenzband-Tabelle, die in Schritt 520 erzeugt wird, nach einem Block B(m_min, n_min), der dem momentanen Block B(i, j) nächstgelegen ist, in den vorangehenden Blöcken des momentanen Blocks gesucht und werden die Informationen über den nächstgelegenen Nachbarblock des nächstgelegenen Nachbarblocks B(m_min, n_min) erzeugt. Die Informationen über den nächstgelegenen Block enthalten Indexinformationen m_min, n_min von B(m_min, n_min). Wenn ein Skalierungsfaktor beim Suchen nach dem nächstgelegenen Nachbarblock verwendet wird, enthalten die nächstgelegenen Nachbarblockinformationen den Skalierungsfaktor k_min.
In Schritt 550 wird der momentane Block, der im Niederfrequenzband enthalten ist, codiert.
In Schritt 560 wird ein Bitstrom, d.h. ein TFBR-Bitstrom, der die Informationen über den nächstgelegenen Nachbarblock enthält, d.h. die Indexinformationen m_min, n_min und k_min des nächstgelegenen Blocks, die anstelle der Hochfrequenzbanddaten in Schritt 540 und der momentanen Blockdaten, die in Schritt 550 codiert werden erzeugt werden, erzeugt und ausgegeben.
6 ist eine Darstellung einer Audiocodiervorrichtung gemäß einer beispielhaften Ausführungsform der vorliegenden Erfindung.
Unter Bezugnahme auf 6 und 4 wird nun die Audiocodiervorrichtung gemäß einer beispielhaften Ausführungsform der vorliegenden Erfindung erläutert.
Die Audiocodiervorrichtung gemäß der vorliegenden Erfindung enthält eine Codiereinheit 610, eine TFBR-Einheit 620 und eine Bitstrom-Packeinheit 630.
Die TFBR-Einheit 620 enthält eine TF-Band-Tabellen-Erzeugungseinheit 622, eine Einheit 624 zum Suchen nach dem nächstgelegenen Nachbarblock 624 und eine Einheit 626, die über einen redundanten Block entscheidet.
Da die Codiereinheit 610 die TF-Band-Tabellenerzeugungseinheit 622, die Einheit 624 zum Suchen nach einem nächstgelegenen Nachbarblock und die Bitstrom-Packeinheit 630 dieselben Funktionen ausführen, die jenen der jeweiligen Module in 3 entsprechen, wird auf eine detaillierte Beschreibung derselben verzichtet.
Auf der Basis des nächstgelegenen Nachbarblocks B(m_min, n_min), der durch die Einheit 624 zum Suchen nach einem nächstgelegenen Nachbarblock gefunden wird, ermittelt die Einheit 626, die über einen redundanten Block entscheidet, ob der momentane Block B(i, j) ein redundanter Block ist.
D(i, j) der Gleichung 1 bezeichnet den euklidischen Abstand zwischen dem momentanen Block und einem Block, der dem momentanen Block am nächsten gelegen ist, d.h. den euklidischen Abstand zwischen B(i, j) und B_min(m_min, n_min).
D_min(i, j), das den Minimalwert der Werte D(i, j) hat, die man durch die Gleichung 1 erhält, ist in unten in Gleichung 3 ausgedrückt. Dmin(i, j) = |B(i, j), Ckmin·B(mmin, nmin)| ...(3)
Wenn D_min(i, j) weniger ist als der Schwellenwert T_j, ermittelt die Einrichtung 626, die über einen redundanten Block entscheidet, dass der momentane Block B(i, j) ein redundanter Block ist, und sendet die Indexinformationen m_min, n_min und k_min des nächstgelegenen Blocks, die in der Einheit 624 zum Suchen eines nächstgelegenen Nachbarblocks erzeugt werden, zur Bitstrom-Packeinheit 630. Hier ist der Schwellenwert Tj ein Schwellenwert im Frequenzband j und ein experimentell bestimmter Wert. Bei der vorliegenden Erfindung sind in einem MPEG-Bitstrom die Indexinformationen über den nächstgelegenen Nachbarblock im Feld der Ergänzungsdaten 1 enthalten. Die Informationen können jedoch wahlweise in anderen Feldern als dem Bitstrom enthalten sein.
Unter Verwendung der Indexinformationen über den nächstgelegenen Nachbarblock, die von der Einheit 626 gesendet werden, die über einen redundanten Block entscheidet, gibt die Bitstrom-Packeinheit 630 an den Decoder einen Bitstrom aus, der die Indexinformationen m_min, n_min und k_min des nächstgelegenen Nachbarblocks enthält, d.h. einen TFBR-Bitstrom, anstelle der Spektrumsinformationen über den Block B(i, j).
7 ist ein Flussdiagramm der Schritte, die durch ein Audiocodierverfahren gemäß einer weiteren beispielhaften Ausführungsform der vorliegenden Erfindung ausgeführt werden.
In Schritt 710 wird eine Zeit-Frequenz-Transformation, wie etwa eine MDCT, die beim Codierschritt des Standes der Technik ausgeführt wird, an einem eingegebenen Zeitdomänen-Audiosignal ausgeführt.
In Schritt 720 wird das Datensignal, das in Schritt 710 MDCT-transformiert wurde, in N Frequenzblöcke in jedem Frame unterteilt und die Zeit-Frequenz-Indexkombination, die in 4 dargestellt ist, d.h. die Zeit-Frequenzband-Tabelle, erzeugt. Obwohl die MDCT-Transformation als Zeit-Frequenzband-Transformationsverfahren bei der vorliegenden Ausführungsform verwendet wird, können wahlweise auch andere Zeit-Frequenz-Transformationsverfahren verwendet werden.
In Schritt 730 werden auf der Basis der TF-Band-Tabelle, die in Schritt 720 erzeugt wird, vorhergehende Blöcke des momentanen Blocks gesucht und wird ein Block (m_min, n_min), der dem momentanen Block B(i, j) am nächsten gelegen ist, ermittelt.
In Schritt 740 wird durch Vergleichen von D_min (i, j), das der durch Gleichung 3 ermittelte Abstand zwischen dem momentanen Block B(i, j) und dem nächstgelegenen Nachbarblock B(m_min, n_min) ist, der in Schritt 730 ermittelt wird, mit dem Schwellenwert Tj ermittelt, ob der momentane Block ein redundanter Block ist. Wenn D_min(i, j) geringer ist als der Schwellenwert Tj, wird der Schritt 750 ausgeführt. Ist D_min(i, j) größer als der Schwellenwert Tj, wird Schritt 760 ausgeführt.
In Schritt 750 wird ermittelt, ob der momentane Block ein redundanter Block ist, und es werden die Informationen über den nächstgelegenen Nachbarblock er zeugt. Zudem wird ein Bitstrom, der Indexinformationen m_min und n_min des nächstgelegenen Nachbarblocks, d.h. ein TFBR-Bitstrom, erzeugt und anstelle der Spektrumsinformationen über den Block B(i, j) ausgegeben. Wenn ein Skalierungsfaktor beim Suchen nach dem nächstgelegenen Nachbarblock verwendet wird, enthalten die Informationen wahlweise einen Skalierungsfaktor k_min.
In Schritt 760 wird ermittelt, dass der momentane Block ein normaler Block ist, und ein Bitstrom, in den die momentanen Blockdaten eingefügt sind, erzeugt und ausgegeben.
8 ist ein Diagramm einer Audiodecodiervorrichtung gemäß einer beispielhaften Ausführungsform der vorliegenden Erfindung.
Die Audiodecodiervorrichtung 800, die in 8 dargestellt ist, enthält eine Bitstrom-Entpackeinheit 810 und einen TFBR-Decoder 820. Der TFBR-Decoder 820 enthält eine Decodiereinheit 822 und eine Einheit 824 zum Rekonstruieren eines redundanten Blocks.
Die Datenstrom-Entpackeinheit 810 extrahiert TFBR-Parameter aus einem TFBR-Bitstrom. Der extrahierte TFBR-Parameter wird in die Einheit 824 zum Rekonstruieren des redundanten Blocks eingegeben, und die übrigen Daten werden in die Decodiereinheit 822 eingegeben.
Wenn ein momentaner Block B(i, j) ein normaler Block ist, führt die Decodiereinheit 822 einen normalen Audiodecodiervorgang aus. Da die Module, die die Decodiereinheit 822 bilden, dieselben Funktionen ausführen, wie jene eines herkömmlichen Decoders, wird auf eine detaillierte Beschreibung derselben verzichtet.
Auf der Basis der decodierten Daten des normalen Blocks und der Daten des redundanten Blocks, die von der Einheit 824 zum Rekonstruieren eines redundanten Blocks eingegeben werden, erzeugt die Decodiereinheit 822 die TF-Band-Tabelle, die in 4 gezeigt ist.
Unter Verwendung der TFBR-Parameter, die von Bitstrom-Entpackeinheit 810 eingegeben werden, d.h. der TF-Band-Tabelle, die auf der Basis des Index m_min und n_min des nächstgelegenen Nachbarblocks des redundanten Blocks erzeugt wird, rekonstruiert die Einheit 824 zum Rekonstruieren des redundanten Blocks näherungsweise den redundanten Block. Wird der Skalierungsfaktor k_min verwendet, wenn der TFBR-Codierer die TFBR-Parameter erzeugt, wird die Skalierung des nächstgelegenen Nachbarblocks auf der Basis des Skalierungsfaktors k_min eingestellt, wenn der redundante Block rekonstruiert wird.
Wenn der nächstgelegene Nachbarblock des Redundanten Blocks, d.h. der nächstgelegene Nachbarblock, auf den sich bezogen werden soll, um näherungsweise den redundanten Block zu rekonstruieren, ein redundanter Block ist, wird der Block, auf den sich durch den nächstgelegenen Nachbarblock bezogen wird, verwendet; um einen redundanten Block zu rekonstruieren.
Die Daten des redundanten Blocks, die in der Einheit 824 zum Rekonstruieren eines redundanten Blocks näherungsweise rekonstruiert werden, werden in die Decodiereinheit 822 eingegeben.
Unter Verwendung der Daten des redundanten Blocks, die von der Einheit 824 zum Rekonstruieren eines redundanten Blocks eingegeben werden, rekonstruiert die Decodiereinheit 822 das gesamte Spektrum und erzeugt ein Ausgangsaudiosignal. Unter Verwendung der eingegebenen Daten des redundanten Blocks aktualisiert die Decodiereinheit 822 die TF-Band-Tabelle und verwendet die Tabelle, wenn die Daten des nächsten redundanten Block rekonstruiert werden.
9 ist ein Flussdiagramm der Schritte, die von einem Decodierverfahren gemäß einer beispielhaften Ausführungsform der vorliegenden Erfindung ausgeführt werden.
In Schritt 910 wird der TFBR-Bitstrom, der vom Codierer gesendet wird, entpackt und werden die TFBR-Parameter extrahiert.
In Schritt 920 wird auf der Basis der extrahierten TFBR-Parameter bestimmt, ob ein Block B(i, j), der momentan decodiert werden soll, ein redundanter Block ist. Wenn bei der vorliegenden Ausführungsform TFBR-Parameter entsprechend dem momentanen Block B(i, j) existieren, wird ermittelt, dass der momentane Block B(i, j) ein redundanter Block ist. Wird ermittelt, dass momentane Block ein redundanter Block ist, wird Schritt 930 ausgeführt, und wenn der momentane Block kein redundanter Block ist, wird Schritt 940 ausgeführt.
In Schritt 930 wird auf der Basis der TFBR-Parameter, d.h. des Indexes m_min und n_min des nächstgelegenen Nachbarblocks des redundanten Blocks, der redundante Block rekonstruiert. Wenn der Skalierungsfaktor k_min in den TFBR-Parametern enthalten ist, wird zudem die Skalierung des nächstgelegenen Nachbarblocks auf der Basis des Skalierungsfaktors k_min eingestellt.
In Schritt 940 wird ermittelt, dass der momentane Block B(i, j) ein normaler Block ist, und die Decodierung ausgeführt. Zudem wird in Schritt 940 auf der Basis der Daten des redundanten Blocks, die in Schritt 930 rekonstruiert werden, und der decodierten Blockdaten, die TF-Band-Tabelle erzeugt, die in 4 gezeigt ist.
In Schritt 950 wird auf der Basis der Daten des normalen Blocks, die in Schritt 940 decodiert werden, und der Daten des redundanten Blocks, die in Schritt 930 rekonstruiert werden, das Spektrum rekonstruiert und auf der Basis des Spektrums ein Ausgangs-Audiosignal erzeugt.
10 ist eine Darstellung einer Decodiervorrichtung gemäß einer weiteren beispielhaften Ausführungsform der vorliegenden Erfindung.
Die Audiodecodiervorrichtung 1000, die in 10 gezeigt ist, enthält eine Bitstrom-Entpackeinheit 1010, eine Decodiereinheit 1020 und eine Nachverarbeitungseinheit 1030.
Die Bitstrom-Entpackeinheit 1010 empfängt den TFBR-Bitstrom, der in der Bitstrom-Packeinheit 330 von 3 erzeugt wird, und extrahiert TFBR-Parameter aus dem Bitstrom. Die extrahierten TFBR-Parameter werden in die Nachverarbeitungseinheit 1030 eingegeben.
Die Decodiereinheit 1020 decodiert einen Bitstrom entsprechend dem Niederfrequenzteil, der von einem herkömmlichen Audiocodierer, wie etwa einem MP3-Codierer, gesendet wird, und sendet diesen zur Nachverarbeitungseinheit 1030.
Auf der Basis der Niederfrequenzteil-Daten, die von der Decodiereinheit 1020 eingegeben werden, erzeugt die Nachverarbeitungseinheit 1030 die TF-Band-Tabelle aus 4 und rekonstruiert auf der Basis der TFBR-Parameter m_min und n_min, die von der Bitstrom-Entpackeinheit 1010 eingegeben werden, einen Datenblock entsprechend dem Hochfrequenzteil. Wenn der Skalierungsfaktor k_min in den TFBR-Parametern enthalten ist, wird hier die Skalierung auf der Basis des Skalierungsfaktors k_min eingestellt.
Zudem wird auf der Basis der rekonstruierten Hochfrequenzblock-Daten die TF-Band-Tabelle, die zuvor erzeugt wurde, aktualisiert. Die aktualisierte TF-Band-Tabelle wird verwendet, wenn ein nächster Hochfrequenzteil-Block rekonstruiert wird.
Da die Parameter m_min, n_min und k_min im Vergleich zur Größe der ursprünglichen Blockinformationen weitaus kleiner sind, wird infolgedessen eine sehr geringe Zahl zusätzlicher Bits verwendet. Während die vorhandene Sendebitrate beibehalten wird, kann demzufolge die Klangqualität wirkungsvoll verbessert werden.
Bei der vorliegenden Erfindung zeigt es sich, dass, wenn Hochfrequenzteil-Daten nicht gesendet werden, die Hochfrequenzteil-Daten unter Verwendung der TFBR-Parameter wiederhergestellt werden. Die vorliegende Erfindung kann jedoch wahlweise auch bei einem willkürlichen Frequenzband und -frame, die nicht gesendet werden, verwendet werden.
11 ist ein Flussdiagramm der Schritte, die von einem Decodierverfahren gemäß einer weiteren beispielhaften Ausführungsform der vorliegenden Erfindung ausgeführt werden.
In Schritt 1110 wird der Bitstrom entpackt und werden die TFBR-Parameter extrahiert.
In Schritt 1120 werden die eingegebenen Niederfrequenzband-Blockdaten decodiert und wird das Spektrum entsprechend dem Niederfrequenzteil erzeugt. Bei der vorliegenden Ausführungsform wird davon ausgegangen, dass der Eingangsbitstrom lediglich die Niederfrequenzband-Daten enthält. Die vorliegende Erfindung kann jedoch wahlweise auch bei einem Bitstrom verwendet werden, der die Daten eines weiteren Frequenzbandes enthält.
In Schritt 1130 wird auf der Basis der Niederfrequenzteil-Daten, die in Schritt 1120 decodiert werden, die TF-Band-Tabelle aus 4 erzeugt und auf der Basis der TFBR-Parameter m_min und n_min, die in Schritt 1110 extrahiert werden, und des Niederfrequenzblocks, der in Schritt 1120 decodiert wird, der Datenblock entsprechend dem Hochfrequenzteil rekonstruiert. Wenn der Skalierungsfaktor k_min in den eingegebenen TFBR-Parametern enthalten ist, wird hier die Skalierung auf der Basis des Skalierungsfaktors k_min eingestellt.
In Schritt 1140 wird unter Verwendung der Blöcke des Niederfrequenzteils, der in Schritt 1120 decodiert wird, und der Blöcke des Hochfrequenzteils, der in Schritt 1130 rekonstruiert wird, das gesamte Spektrum rekonstruiert. Zudem wird auf der Basis der rekonstruierten Hochfrequenzteil-Blockdaten die TF-Band-Tabelle aktualisiert. Die aktualisierte TF-Band-Tabelle wird verwendet, wenn ein nächster Hochfrequenzteil-Block rekonstruiert wird.
Die vorliegende Erfindung ist nicht auf die oben beschriebenen beispielhaften Ausführungsformen beschränkt, und es ist klar, dass Variationen und Abänderungen innerhalb des Geltungsbereiches der vorliegenden Erfindung ausgeführt werden können, wie sie durch die beiliegenden Ansprüche definiert sind. Insbesondere kann die vorliegende Erfindung nicht nur bei MPEG-1 Layer 3, sondern auch bei allen Audiocodiervorrichtungen und -verfahren, wie etwa MPEG-2 AAC, MPEG-4 und WMA angewendet werden.
Die vorliegende Erfindung kann als Code ausgeführt sein, der von einem Computer auf einem computerlesbaren Aufzeichnungsmedium gelesen werden kann. Das computerlesbare Aufzeichnungsmedium umfasst sämtliche Arten von Aufzeichnungsmedien, auf denen computerlesbare Daten gespeichert sind. Computerlesbare Aufzeichnungsmedien beinhalten Speichermedien, wie etwa magnetische Speichermedien (z.B. ROMs, Floppy-Disketten, Festplatten und dergleichen), optisch wiederbeschreibbare Medien (z.B. CD-ROMs, DVDs und dergleichen) sowie Trägerwellen (z.B. Sendungen über das Internet). Zudem können die computerlesbaren Aufzeichnungsmedien auf Computersystemen verteilt sein, die durch ein Netzwerk verbunden sind, und können einen computerlesbaren Code in einer verteilten Betriebsart speichern und ausführen.
Mit Hilfe des weiterentwickelten Codier- und Decodierverfahrens sowie der Vorrichtung gemäß der vorliegenden Erfindung, die oben beschrieben wurde; kann die Sendebitrate ohne Beeinträchtigung der Tonqualität im Vergleich zu Audiocodecs des Standes der Technik verringert und die Tonqualität verbessert werden, ohne dass die Sendebitrate ansteigt.
Obwohl einige wenige bevorzugte Ausführungsformen gezeigt und beschrieben wurden, wird der Fachmann verstehen, dass unterschiedliche Änderungen und Modifikationen vorgenommen werden können, ohne vom Geltungsbereich der Erfindung abzuweichen, wie er in den beiliegenden Ansprüchen definiert ist.
Die Aufmerksamkeit gilt sämtlichen Dokumenten und Druckschriften, die zeitgleich oder vor dieser Beschreibung in Verbindung mit dieser Anmeldung eingereicht wurden und die der öffentlichen Einsichtnahme mit dieser Beschreibung zugänglich sind.
Sämtliche Merkmale, die in dieser Beschreibung (einschließlich den beiliegenden Ansprüchen und Zeichnungen) erläutert wurden, und/oder alle Schritte des hier beschriebenen Verfahrens oder Vorgangs, können beliebig kombiniert werden, mit Ausnahme von Kombinationen, bei denen sich wenigstens einige dieser Merkmale und/oder Schritte gegenseitig ausschließen.
Jedes Merkmal, das in dieser Beschreibung erläutert ist (einschließlich der beiliegenden Ansprüche, der Zusammenfassung und der Zeichnungen), kann durch alternative Merkmale ersetzt werden, die demselben, einem äquivalenten oder ähnlichen Zweck dienen, solange es nicht ausdrücklich anders bemerkt ist. Somit ist, solange es nicht ausdrücklich anders beschrieben ist, jedes erläuterte Merkmal lediglich ein Beispiel einer allgemeinen Reihe von äquivalenten oder ähnlichen Merkmalen.
Die vorliegende Erfindung ist nicht auf die Details der vorangehenden Ausführungsformen) beschränkt. Die Erfindung erstreckt sich auf eine neuartige oder jede neuartige Kombination der Merkmale, die in dieser Beschreibung (einschließlich der beiliegenden Ansprüche, der Zusammenfassung und Zeichnungen) erläutert sind, oder auf eine neuartige oder jede neuartige Kombination der Schritte eines so beschriebenen Verfahrens oder Vorgangs. Der Geltungsbereich der Erfindung ist somit lediglich durch die beiliegenden Ansprüche beschränkt.

Claims

Verfahren zum Codieren digitaler Audiosignale, das umfasst: a) auf Basis eines Eingangs-Audiosignals Erzeugen einer Zeit-Frequenzband-Tabelle, wobei jedes Element der Zeit-Frequenzband-Tabelle eine Vielzahl von Spektrumkoeffizienten hat und die Zeit-Frequenzband-Tabelle eine Vielzahl von Frequenzbändern in einem Zeitrahmen des digitalen Audiosignals sowie einer Vielzahl folgender Zeitrahmen abdeckt; b) auf Basis der erzeugten Zeit-Frequenzband-Tabelle Suchen nach einem nächstgelegenen Nachbarblock eines Blocks, der gegenwärtig codiert wird, und Erzeugen von Informationen über den nächstgelegenen Nachbarblock; und c) Erzeugen eines Bitstroms, der die erzeugten Informationen über den nächstgelegenen Nachbarblock enthält.
Verfahren nach Anspruch 1, wobei in Schritt b) die Frequenz eines Blocks, der gegenwärtig codiert wird, einer Schwellenwertfrequenz gleich ist oder darüber liegt und der in Schritt c) erzeugte Bitstrom Blockinformationen über einen Block, der in einem Frequenzband enthalten ist, das unter der Schwellenwertfrequenz liegt, und Informationen über einen nächstgelegenen Nachbarblock eines Blocks enthält, der in einem Frequenzband enthaften ist, das der Schweilenwertfrequenz gleich ist oder darüber liegt.
Verfahren nach Anspruch 1 oder 2, wobei die Informationen über den nächstgelegenen Nachbarblock Indexinformationen des nächstgelegenen Nachbarblocks sind, nach denen in der Zeit-Frequenzband-Tabelle gesucht wird.
Verfahren nach Anspruch 1, 2 oder 3, wobei in Schritt b) ein Suchbereich des nächstgelegenen Nachbarblocks Blöcke vor dem Block enthält, der gegenwärtig codiert wird.
Verfahren nach einem der vorangehenden Ansprüche, wobei in Schritt b) Bestimmung des nächstgelegenen Nachbarblocks auf dem euklidischen Abstand zwischen dem aktuellen Block und einem Objektblock basiert.
Verfahren nach einem der vorangehenden Ansprüche, wobei die Informationen über den nächstgelegenen Nachbarblock Skalierungsfaktorinformationen enthalten.
Verfahren zum Codieren digitaler Audiosignale, das umfasst: a) auf Basis eines Eingangs-Audiosignals Erzeugen einer Zeit-Frequenzband-Tabelle, wobei jedes Element der Zeit-Frequenzband-Tabelle eine Vielzahl von Spektrumkoeffizienten hat und die Zeit-Frequenzband-Tabelle eine Vielzahl von Frequenzbändern in einem Zeitrahmen des digitalen Audiosignals sowie einer Vielzahl folgender Zeitrahmen abdeckt; b) auf Basis der erzeugten Zeit-Frequenzband-Tabelle Suchen nach einem nächstgelegenen Nachbarblock eines Blocks, der gegenwärtig codiert wird; c) auf Basis des gesuchten nächstgelegenen Nachbarblocks Bestimmen, ob ein Block, der gegenwärtig codiert wird, ein redundanter Block ist oder nicht; und d) auf Basis des in Schritt c) bestimmten Ergebnisses Erzeugen eines Ausgangs-Bitstroms.
Verfahren nach Anspruch 7, wobei, wenn in Schritt c) bestimmt wird, dass der gegenwärtig codierte Block der redundante Block ist, der in Schritt c) erzeugte Bitstrom Informationen über den nächstgelegenen Nachbarblock über nach dem in Schritt b) gesuchten nächstgelegenen Nachbarblock anstelle von Informationen über den aktuellen Block enthält.
Verfahren nach Anspruch 8, wobei die Informationen über den nächstgelegenen Nachbarblock Indexinformationen des nächstgelegenen Nachbarblocks sind, nach denen in der Zeit-Frequenzband-Tabelle gesucht wird.
Verfahren nach Anspruch 7, 8 oder 9, wobei, wenn in Schritt c) bestimmt wird, dass der gegenwärtig codierte Block nicht der redundante Block ist, der in Schritt d) erzeugte Bitstrom Informationen über den aktuellen Block enthält.
Verfahren nach einem der Ansprüche 7 bis 10, wobei in Schritt b) ein Suchbereich des nächstgelegenen Nachbarblocks Blöcke vor dem Block enthält, der gegenwärtig codiert wird.
Verfahren nach einem der Ansprüche 7 bis 11, wobei in Schritt b) Bestimmung des nächstgelegenen Nachbarblocks auf dem euklidischen Abstand zwischen dem aktuellen Block und einem Objektblock basiert.
Verfahren nach einem der Ansprüche 7 bis 12, wobei die Informationen über den nächstgelegenen Nachbarblock Skalierungsfaktorinformationen enthalten.
Vorrichtung zum Codieren digitaler Audiosignale, die umfasst: eine Einheit (322) zum Erzeugen einer Zeit-Frequenzband-Tabelle, die so eingerichtet ist, dass sie auf Basis eines Eingangs-Audiosignals eine Zeit-Frequenzband-Tabelle erzeugt, wobei jedes Element der Zeit-Frequenzband-Tabelle eine Vielzahl von Spektrumkoeffizienten hat und die Zeit-Frequenzband-Tabelle eine Vielzahl von Frequenzbändern in einem Zeitrahmen des digitalen Audiosignals sowie einer Vielzahl folgender Zeitrahmen abdeckt; eine Einheit (324) zum Suchen eines nächstgelegenen Nachbarblocks und zum Erzeugen von Informationen über den nächstgelegenen Nachbarblock, die so eingerichtet ist, dass sie auf Basis der erzeugten Zeit-Frequenzband-Tabelle nach einem nächstgelegenen Nachbarblock eines Blocks sucht, der gegenwärtig codiert wird, und Informationen über den nächstgelegenen Nachbarblock erzeugt; und eine Bitstrom-Packeinheit (330), die so eingerichtet ist, dass sie einen Bitstrom erzeugt, der die erzeugten Informationen über den nächstgelegenen Nachbarblock enthält.
Vorrichtung nach Anspruch 14, wobei die Frequenz des Blocks, der gegenwärtig erzeugt wird, einer Schwellenwertfrequenz gleich ist oder darüber liegt und die Bitstrom-Packeinheit einen Bitstrom erzeugt, der Blockinformationen über einen Block, der in einem Frequenzband enthalten ist, das unter der Schwellenwertfrequenz liegt, und Informationen über einen nächstgelegenen Nachbarblock eines Blocks enthält, der in einem Frequenzband enthalten ist, das der Schwellenwertfrequenz gleich ist oder darüber liegt.
Vorrichtung nach Anspruch 14 oder 15, wobei die Informationen über den nächstgelegenen Nachbarblock Indexinformationen des nächstgelegenen Nachbarblocks sind, nach denen in der Zeit-Frequenzband-Tabelle gesucht wird.
Vorrichtung zum Codieren digitaler Audiosignale, die umfasst: eine Einheit (622) zum Erzeugen einer Zeit-Frequenzband-Tabelle, die so eingerichtet ist, dass sie auf Basis eines Eingangs-Audiosignals eine Zeit-Frequenzband-Tabelle erzeugt, wobei jedes Element der Zeit-Frequenzband-Tabelle eine Vielzahl von Spektrumkoeffizienten hat und die Zeit-Frequenzband-Tabelle eine Vielzahl von Frequenzbändern in einem Zeitrahmen des digitalen Audiosignals und einer Vielzahl folgender Zeitrahmen abdeckt; eine Einheit (624) zum Suchen eines nächstgelegenen Nachbarblocks, die so eingerichtet ist, dass sie auf Basis der erzeugten Zeit-Frequenzband-Tabelle nach einem nächstgelegenen Nachbarblock eines Blocks sucht, der gegenwärtig codiert wird; eine Einheit (626), die über einen redundanten Block entscheidet und so eingerichtet ist, dass sie auf Basis des nächstgelegenen Nachbarblocks bestimmt, ob der gegenwärtig codierte Block ein redundanter Block ist oder nicht; und eine Bitstrom-Erzeugungseinheit (630), die so eingerichtet ist, dass sie auf Basis des in der Einheit zum Entscheiden über einen redundanten Block bestimmten Ergebnisses einen Ausgangs-Bitstrom erzeugt.
Vorrichtung nach Anspruch 17, wobei, wenn die Einheit zum Entscheiden über einen redundanten Block bestimmt, dass der gegenwärtig codierte Block der redundante Block ist, die Bitstrom-Erzeugungseinheit Informationen über den nächstgelegenen Nachbarblock, nach dem in der Einheit zum Suchen des nächstgelegenen Nachbarblocks gesucht wird, anstelle von Informationen über den aktuellen Block in den Ausgangs-Bitstrom einschließt.
Vorrichtung nach Anspruch 17 oder 18, wobei, wenn die Einheit zum Entscheiden über Redundanz bestimmt, dass der gegenwärtig codierte Block nicht der redundante Block ist, die Bitstrom-Erzeugungseinheit die Informationen über den aktuellen Block in den Ausgangs-Bitstrom einschließt.
Vorrichtung nach Anspruch 18, wobei die Informationen über den nächstgelegenen Nachbarblock Indexinformationen des nächstgelegenen Nachbarblocks sind, nach denen in der Zeit-Frequenzband-Tabelle gesucht wird.
Decodierverfahren zum Decodieren eines Audiosignals, das zusätzliche Informationen über einen vorgegebenen Bereich des Audiosignals enthält, das umfasst: a) Decodieren eines Blocks, der nicht in dem vorgegebenen Bereich enthalten ist, aus einem Eingangs-Audio-Bitstrom; b) auf Basis der Daten des decodierten Blocks Erzeugen einer Zeit-Frequenzband-Tabelle, die dem vorgegebenen Bereich entspricht, wobei jedes Element der Zeit-Frequenzband-Tabelle eine Vielzahl von Spektrumkoeffizienten hat und die Zeit-Frequenzband-Tabelle eine Vielzahl von Frequenzbändern in einem Zeitrahmen des digitalen Audiosignals sowie einer Vielzahl folgender Zeitrahmen abdeckt; und c) unter Verwendung der erzeugten Zeit-Frequenzband-Tabelle Rekonstruieren eines aktuellen Blocks, der in dem vorgegebenen Bereich enthalten ist, auf Basis der zusätzlichen Informationen über den vorgegebenen Bereich des Audiosignals.
Verfahren nach Anspruch 21, wobei die zusätzlichen Informationen Indexinformationen über einen nächstgelegenen Nachbarblock eines aktuellen Blocks in dem vorgegebenen Bereich enthalten.
Verfahren nach Anspruch 21 oder 22, wobei der vorgegebene Bereich ein Hochfrequenzbereich ist.
Verfahren nach Anspruch 21, 22 oder 23, wobei die in Schritt b) erzeugte Zeit-Frequenzband-Tabelle durch den in Schritt c) rekonstruierten aktuellen Block aktualisiert wird.
Verfahren nach Anspruch 21, 22, 23 oder 24, wobei die zusätzlichen Informationen Skalierungsfaktorinformationen enthalten.
Decodierverfahren zum Decodieren eines digitalen Audiosignals, das umfasst: a) Extrahieren von Informationen über den nächstgelegenen Nachbarblock aus einem Eingangs-Audio-Bitstrom; b) auf Basis des Eingangs-Audio-Datenstroms Erzeugen einer Zeit-Frequenzband-Tabelle, wobei jedes Element der Zeit-Frequenzband-Tabelle eine Vielzahl von Spektrumkoeffizienten hat und die Zeit-Frequenzband-Tabelle eine Vielzahl von Frequenzbändern in einem Zeitrahmen des digitalen Audiosignals sowie einer Vielzahl folgender Zeitrahmen abdeckt; c) auf Basis der extrahierten Informationen über den nächstgelegenen Nachbarblock Bestimmen, ob ein gegenwärtig decodierter Block ein redundanter Block ist oder nicht; und d) wenn der gegenwärtig decodierte Block der redundante Block ist, Rekonstruieren des redundanten Blocks unter Verwendung der erzeugten Zeit-Frequenzband-Tabelle auf Basis der extrahierten Informationen über den nächstgelegenen Nachbarblock.
Verfahren nach Anspruch 26, das des Weiteren das Rekonstruieren eines vollständigen Spektrums, das dem Eingangs-Audio-Bitstrom entspricht, unter Verwendung des rekonstruierten redundanten Blocks umfasst.
Verfahren nach Anspruch 27, wobei Schritt c) des Weiteren umfasst: Aktualisieren der Zeit-Frequenzband-Tabelle auf Basis des rekonstruierten redundanten Blocks.
Verfahren nach Anspruch 27 oder 28, wobei die Informationen über den nächstgelegenen Nachbarblock Skalierungsfaktorinformationen enthalten.
Decodiervorrichtung zum Decodieren eines Audiosignals, das zusätzliche Informationen über einen vorgegebenen Bereich des Audiosignals enthält, das umfasst: eine Decodiereinheit (1020), die so eingerichtet ist, dass sie einen Block, der in dem vorgegebenen Bereich enthalten ist, aus einem Eingangs-Audio-Bitstrom decodiert; und eine Nachverarbeitungseinheit (1030), die so eingerichtet ist, dass sie auf Basis der Daten des decodierten Blocks eine Zeit-Frequenzband-Tabelle erzeugt, die dem vorgegebenen Bereich entspricht, und unter Verwendung der erzeugten Zeit-Frequenzband-Tabelle einen aktuellen Block, der in dem vorgegebenen Bereich enthalten ist, auf Basis der zusätzlichen Informationen über den vorgegebenen Bereich des Audiosignals rekonstruiert, wobei jedes Element der Zeit-Frequenzband-Tabelle eine Vielzahl von Spektrumkoeffizienten hat und die Zeit-Frequenzband-Tabelle eine Vielzahl von Frequenzbändern in einem Zeitrahmen des digitalen Audiosignals sowie einer Vielzahl folgender Zeitrahmen abdeckt.
Vorrichtung nach Anspruch 30, wobei die zusätzlichen Informationen Indexinformationen über einen nächstgelegenen Nachbarblock eines aktuellen Blocks in dem vorgegebenen Bereich enthalten.
Vorrichtung nach Anspruch 30 oder 31, wobei der vorgegebene Bereich ein Hochfrequenzbereich ist.
Vorrichtung nach Anspruch 30, 31 oder 32, wobei die erzeugte Zeit-Frequenzband-Tabelle durch einen rekonstruierten aktuellen Block aktualisiert wird.
Decodiervorrichtung zum Decodieren eines digitalen Audiosignals, die umfasst: eine Einheit (810) zum Extrahieren von Informationen über einen nächstgelegenen Nachbarblock, die so eingerichtet ist, dass sie Informationen über einen nächstgelegenen Nachbarblock aus einem Eingangs-Audio-Bitstrom extrahiert; eine Einheit (822) zum Erzeugen einer Zeit-Frequenzband-Tabelle, die so eingerichtet ist, dass sie auf Basis des Eingangs-Audio-Bitstroms eine Zeit-Frequenzband-Tabelle erzeugt, wobei jedes Element der Zeit-Frequenzband-Tabelle eine Vielzahl von Spektrumkoeffizienten hat und die Zeit-Frequenzband-Tabelle eine Vielzahl von Frequenzbändern in einem Zeitrahmen des digitalen Audiosignals sowie einer Vielzahl folgender Zeitrahmen abdeckt; und eine Einheit (824) zum Rekonstruieren eines redundanten Blocks, die so eingerichtet ist, dass sie auf Basis der extrahierten Informationen über den nächstgelegenen Nachbarblock bestimmt, ob ein gegenwärtig decodierter Block ein redundanter Block ist oder nicht, und wobei die Einheit zum Rekonstruieren des redundanten Blocks so eingerichtet ist, dass sie, wenn der gegenwärtig decodierte Block der redundante Block ist, den redundanten Block unter Verwendung der erzeugten Zeit-Frequenzband-Tabelle auf Basis der extrahierten Informationen über den nächstgelegenen Nachbarblock rekonstruiert.
Vorrichtung nach Anspruch 34, wobei die Einheit zum Rekonstruieren des redundanten Blocks ein vollständiges Spektrum, das dem Eingangs-Audio-Bitstrom entspricht, unter Verwendung des rekonstruierten redundanten Blocks rekonstruiert.
Vorrichtung nach Anspruch 35, wobei die Einheit zum Erzeugen einer Zeit-Frequenzband-Tabelle die Zeit-Frequenzband-Tabelle auf Basis des rekonstruierten redundanten Blocks aktualisiert.