PL232466B1

PL232466B1 - Sposób kodowania, sposób dekodowania, koder oraz dekoder sygnału audio

Info

Publication number: PL232466B1
Application number: PL410945A
Authority: PL
Inventors: Maciej BARTKOWIAK; Maciej Bartkowiak; Tomasz Żernicki; Łukasz Januszkiewicz; Marcin CHRYSZCZANOWICZ; Marcin Chryszczanowicz
Original assignee: Zylia Spolka Z Ograniczona Odpowiedzialnoscia
Priority date: 2015-01-19
Filing date: 2015-01-19
Publication date: 2019-06-28
Also published as: WO2016116844A1; EP3248190A1; US20180018978A1; US10734005B2; PL3248190T3; EP3248190B1; PL410945A1

Description

Opis wynalazku

Dziedzina

Wynalazek dotyczy kodowania oraz dekodowania sygnału audio. Ściślej wynalazek dotyczy kodowania oraz dekodowania sygnału audio z zastosowaniem dekompozycji na trajektorie sinusoidalne oraz kodowania entropijnego.

Stan Techniki

Cyfrowa nieskompresowana reprezentacja sygnału audio wysokiej jakości (na przykład jakości porównywalnej z jakością oferowaną przez zapis na dysku kompaktowym) wymaga dużej ilości danych. Obecnie powszechnie stosowane są kodery służące do zmniejszenia tej ilości danych przed zapisem na nośnikach danych lub przed transmisją cyfrową. Opracowanych zostało wiele różnych koderów sygnałów audio. Zostały one przedstawione w literaturze naukowej, między innymi w K. Brandenburg, Perceptual Coding of High Quality Digital Audio w: Applications of Digital Signal Processing to Audio and Acoustics, M. Kahrs, K. Brandenburg (red.), Kluwer Academic Publishers, 1998, oraz M. Bosi, R.E. Goldberg, Introduction to digital audio coding and standards, Springer, 2003, a także A. Spanias, V. Atti, T. Painter, Audio signal processing and coding, Wiley 2007.

Największą popularność zyskały kodery wykorzystujące reprezentację sygnału audio w dziedzinie częstotliwości przy pomocy zespołów filtrów podpasmowych lub transformacji blokowych. Dekodery przystosowane do dekodowania sygnałów zakodowanych takimi technikami kompresji są powszechnie wykorzystywane w systemach telekomunikacyjnych oraz sprzęcie elektroakustycznym powszechnego użytku, takich jak przenośny odtwarzacz muzyki, i najczęściej mają postać specjalizowanego układu scalonego. Zasada działania tych urządzeń jest także podstawą wielu międzynarodowych i komercyjnych standardów kompresji dźwięku, takich jak ISO/IEC JTC1/SC29/WG11 MPEG, International Standard ISO/IEC 11172-3, Information Technology - Coding of Moving Pictures and Associated Audio for Digital Storage Media at up to About 1.5 Mbit/s, part 3: Audio, oraz ISO/IEC JTC1/SC29/WG11 MPEG, International Standard ISO/IEC 14496-3, Coding of Audio-Visual Objects: Audio, a także Advanced Television Systems Committee, Document A/52:2010, Digital Audio Compression Standard (AC-3, E-AC-3), oraz 3GPP TS 26.410, General audio codec audio processing functions; Enhanced aacPlus general audio codec.

Inną, mniej popularną grupą koderów i dekoderów sygnałów audio są kodery i dekodery sinusoidalne. Kodery i dekodery sinusoidalne również reprezentują sygnał w dziedzinie częstotliwości. W szczególności reprezentacja wykorzystywana w koderach i dekoderach sinusoidalnych jest sumą ważoną funkcji sinusoidalnie zmiennych. Ściślej ujmując, dla składowych tych ciągłej zmianie w czasie podlega amplituda chwilowa oraz częstotliwość chwilowa i faza chwilowa, która jest powiązana z częstotliwością chwilową. Kompresja sygnału w takiej reprezentacji osiągana jest dzięki przybliżaniu przebiegu zmian częstotliwości chwilowej i amplitudy chwilowej składników dźwięku prostymi funkcjami interpolacyjnymi, takimi jak wielomian niskiego stopnia. Możliwe jest przesłanie informacji o częstotliwości oraz amplitudzie dla każdej składowej w znacznie większych odstępach czasu niż odstęp próbkowania dla próbek sygnału oryginalnego. W sygnale rekonstruowanym wartość częstotliwości chwilowej i amplitudy chwilowej każdej składowej sinusoidalnej dla każdej próbki sygnału jest interpolowana w oparciu o przesłane dane. Zasada działania kodera sinusoidalnego została opisana w literaturze naukowej, między innymi w R.J. McAulay, T.F. Quatieri, „Speech analysis/synthesis based on a sinusoidal representation, IEEE Transactions on Acoustics, Speech, and Signal Processing ASSP-34 (4), 1986, H. Purnhagen, „Very Low Bit Rate Parametric Audio Coding, 2008, a także F. Myburg, Design of a Scalable Parametric Audio Coder, 2004. Ten rodzaj kompresji jest również podstawą standardów międzynarodowych, takich jak ISO/IEC 14496-3/AMD1, Coding of audiovisual objects - Part 3: Audio (MPEG-4 Audio Version 2) Harmonic and Individual Lines plus Noise, oraz ISO/IEC JTC1/SC29/WG11 MPEG, International Standard ISO/IEC 14496-3:2001/AMD2, Sinusoidal Coding, a także w licznych dokumentach patentowych.

Dokument patentowy US 4,885,790 Processing of acoustic waveforms dotyczy kodowania sygnałów mowy opartego na modelu sinusoidalnym. W publikacji tej opisano metodę oraz urządzenie, które dzielą sygnał mowy w czasie na wiele segmentów. W każdym segmencie czasu przy pomocy bloku DFT (Digital Fourier Transform) wyznaczane są amplitudy, częstotliwości i fazy składowych sinusoidalnych związanych z każdym maksimum widma amplitudowego sygnału mowy. Następnie algorytm śledzący łączy częstotliwości, amplitudy i fazy składowych w bieżącym segmencie z częstotliwościami,

PL 232 466 B1 amplitudami i fazami składowych w poprzednim segmencie na podstawie najmniejszej różnicy częstotliwości. Rezultatem działania algorytmu śledzącego są trajektorie sinusoidalne opisujące zmiany częstotliwości, amplitudy i fazy każdego sinusoidalnego składnika sygnału zakodowane z odstępem próbkowania wielokrotnie większym niż odstęp próbkowania dla pierwotnego sygnału audio. Trajektorie te są następnie kodowane znanymi technikami, takimi jak PCM (Pulse Code Modulation) lub ADPCM (Adaptive Differential Pulse Code Modulation), opisanymi w L.R. Rabiner, R. W. Schafer, Digital Processing of Speech Signals, Prentice Hall, 1978, oraz M. Bosi, R. E. Goldberg, Introduction to Digital Audio Coding and Standards, Springer, 2003.

Dokument patentowy WO 03/036619 A1 Frequency-differential encoding of sinusoidal model parameters ujawnia metodę kompresji sygnału audio, w której sinusoidalne składniki dźwięku są zakodowane tak, że do dekodera przesyła się bezpośrednią reprezentację częstotliwości, amplitudy i fazy danego składnika w bieżącym segmencie czasu albo przesyła się do dekodera odpowiednie różnice pomiędzy częstotliwością, amplitudą oraz fazą danego składnika w bieżącym segmencie czasu a częstotliwością, amplitudą oraz fazą najbardziej zbliżonego składnika z poprzedniego segmentu czasu. Metoda ta zawiera algorytm optymalizacyjny, który minimalizuje całkowity koszt transmisji sygnału poprzez wybór jednego z dwóch wymienionych sposobów zakodowania.

Dokument patentowy US 7,640,156 B2 Low bit-rate audio encoding dotyczy parametrycznego kodowania sygnału audio, które wykorzystuje trzy modele składników sygnału. W publikacji tej opisano metodę oraz urządzenie dokonujące dekompozycji oryginalnego sygnału audio na składniki, które daje się przybliżać sumą składowych impulsowych, zmodulowanych sinusoid o wolnozmiennych parametrach, oraz szumu, którego widmo daje się przybliżyć charakterystyką filtru autoregresyjnego, którego parametry wyznaczane są znaną techniką predykcji liniowej (LPC).

Dokument patentowy US 7,664,633 B2 Audio coding via creation of sinusoidal tracks and phase determination ujawnia rozszerzoną metodę kodowania sygnału audio, wykorzystującą trzy modele składników sygnału przybliżane sumą składowych impulsowych, zmodulowanych sinusoid oraz szumu. W dokumencie tym opisano sposób zakodowania przebiegu trajektorii sinusoidalnych, uwzględniający wzajemną zależność fazy oraz częstotliwości, co wykorzystano we wspólnym procesie kodowania obu informacji. W celu zwiększenia efektywności kodowania wartości fazy poddawane są predykcji liniowej drugiego rzędu i przesyłany jest skwantowany błąd predykcji. Z uwagi na konieczność zachowania jednoznaczności określania fazy składników sinusoidalnych w kolejnych ramkach, algorytm śledzenia trajektorii sinusoidalnych nie dopuszcza do śledzenia składników o głębokich zmianach częstotliwości w czasie, co prowadzi do dużej fragmentacji trajektorii.

Podstawowym ograniczeniem wszystkich dotychczasowych znanych metod kodowania sygnału audio w oparciu o model sinusoidalny lub sinusoidalno-szumowy jest mała efektywność reprezentacji trajektorii sinusoidalnych, wynikająca z nieuwzględnienia długoczasowej stabilności i przewidywalności zmian parametrów składników sinusoidalnych dźwięków mowy i muzyki. Celem niniejszego wynalazku jest rozwiązanie tego problemu i wielokrotna redukcja liczby bitów wymaganej dla reprezentacji sygnału przy zachowaniu dobrej jakości zdekodowanego sygnału.

Istota wynalazku

Sposób kodowania sygnału audio według wynalazku obejmuje realizowane kolejno etapy: pobierania próbek sygnału audio, wyznaczania składników sinusoidalnych w kolejnych ramkach, estymacji amplitud i częstotliwości tych składników w każdej ramce, łączenia tak uzyskanych par w trajektorie sinusoidalne, podziału poszczególnych trajektorii na segmenty, przekształcania poszczególnych trajektorii za pomocą transformaty cyfrowej wyznaczanej w segmentach dłuższych niż czas trwania ramki do dziedziny częstotliwości, kwantyzacji i selekcji współczynników transformaty w segmentach oraz kodowania entropijnego wyprowadzenia skwantowanych współczynników jako danych wyjściowych. Sposób ten charakteryzuje się tym, że długość segmentów na jakie dzielona jest każda trajektoria dostosowuje indywidualnie w czasie dla każdej z trajektorii.

Korzystnie długość segmentów na jakie dzielona jest każda trajektoria ustala się w procesie optymalizacji przyjmując za kryterium minimalizację przepływności danych wyjściowych.

W etapie kwantyzacji poziomy kwantyzacji korzystnie dobiera się indywidualnie dla każdej z trajektorii, a jeszcze bardziej korzystnie poziomy kwantyzacji ustala się dla kolejnych segmentów.

Korzystnie dla poszczególnych segmentów ustala się liczbę współczynników trajektorii podlegających kodowanych kodem entropijnym.

Przed poddaniem transformacji cyfrowej trajektorie sinusoidalne korzystnie poddaje się przekształceniu nieliniowemu.

PL 232 466 B1

Wybrane współczynniki transformaty wybranych trajektorii korzystnie zastępuje się przynajmniej jednym parametrem sygnału który korzystnie stanowi energia tych współczynników. Dzięki temu, że w zakodowanym przebiegu trajektorii zamiast odrzuconych współczynników zapisana jest ich energia możliwe jest później odtworzenie trajektorii z uwzględnieniem dodatkowej energii równej energii niezakodowanych współczynników. Tym samym niewielkim kosztem objętości przesyłanych danych uzyskuje się możliwość odtworzenia sygnału o bardziej naturalnym brzmieniu, pozbawionego charakterystycznych słyszalnych artefaktów związanych z redukcją liczby przesyłanych współczynników transformaty.

Skwantowane współczynniki wyprowadza się tak, że najpierw przesyła się współczynnik i uzyskane z trajektorii stanowiących kontynuację trajektorii zakodowanych w poprzednich ramkach. Dzięki temu w dekoderze można odtworzyć ciągłe trajektorie nie stosując sygnalizacji początku, kontynuacji i końca trajektorii sinusoidalnej. W konsekwencji uzyskuje się lepszą kompresję.

Sposób dekodowania sygnału audio według wynalazku obejmuje etapy: pobierania zakodowanych danych, odtwarzania z zakodowanych danych współczynników transformaty cyfrowej segmentów trajektorii, poddawania współczynników transformacie odwrotnej i odtwarzania segmentów trajektorii generowania składowych sinusoidalnych, z których każda ma amplitudę i częstotliwość odpowiadającą określonej trajektorii odtwarzania sygnału audio przez sumowanie składowych sinusoidalnych. Cechą szczególną sposobu dekodowania według wynalazku jest to, że brakujące współczynniki transformaty trajektorii składowych sinusoidalnych zastępuje się próbkami szumu generowanymi na podstawie przynajmniej jednego parametru, który został umieszczony w zakodowanych danych zamiast brakujących współczynników. Korzystnie przynajmniej jeden parametr stanowi energia niezakodowanych współczynników. Niezakodowane współczynniki korzystnie odtwarza się wykonując losowanie z wagami odpowiadającymi rozkładowi określonemu przez dodatkowy parametr.

Rozkład stanowi korzystnie rozkład Poissona wyróżniający się spośród innych rozkładów tym, że zapewnia naturalne brzmienie odtwarzanego dźwięku.

Trajektorie korzystnie poddaje się po odtworzeniu za pomocą transformaty odwrotnej odwrotnemu przekształceniu nieliniowemu odwrotnemu do przekształcenia nieliniowego zastosowanego przy kodowaniu.

Korzystnie kolejność wyprowadzania ze strumienia danych tych współczynników trajektorii stanowiących kontynuację segmentów trajektorii odtworzonych w poprzednich ramkach odpowiada kolejności odtwarzania dekodowanych segmentów trajektorii.

Koder sygnału audio według wynalazku zawiera przetwornik oraz jednostkę przetwarzania danych wyposażoną w: moduł pobierania próbek sygnału audio, moduł wyznaczania przyjmujący próbki sygnału audio z modułu pobierania próbek sygnału audio i przetwarzający je na składowe sinusoidalne w kolejnych ramkach, moduł estymacji przyjmujący próbki składowych sinusoidalnych z modułu pobierania próbek sygnału audio i zwracający ich amplitudy i częstotliwości w każdej ramce, moduł syntezy generujący trajektorie sinusoidalne na podstawie wartości amplitudy i częstotliwości, moduł podziału przyjmujący trajektorie z modułu syntezy i dzielący je na segmenty, moduł przekształcania transformujący segmenty trajektorii za pomocą transformaty cyfrowej do dziedziny częstotliwości, moduł k wantyzacji i selekcji, przetwarzający wybrane współczynniki transformaty na wartości wynikające z ustalonych poziomów kwantyzacji i odrzucający pozostałe współczynniki, moduł kodowania entropijnego kodujący skwantowane współczynniki wyprowadzone z modułu kwantyzacji i selekcji, oraz moduł wyprowadzenia danych wyjściowych. Koder według wynalazku cechuje się tym, że moduł podziału jest przystosowany do ustalania długości segmentu indywidualnie dla każdej trajektorii i modyfikowania tej długości w funkcji czasu.

Korzystnie koder jest wyposażony w środki do realizacji etapów sposobu kodowania według wynalazku.

Dekoder sygnału audio według wynalazku zawiera przetwornik oraz jednostkę układ danych wyposażony w: moduł pobierania zakodowanych danych, moduł odtwarzania przyjmujący zakodowane dane i zwracający współczynniki transformaty cyfrowej segmentów trajektorii, moduł transformaty odwrotnej przyjmujący współczynniki transformaty i zwracający odtworzone segmenty trajektorii moduł generowania składowych sinusoidalnych, przyjmujący odtworzone segmenty trajektorii i zwracający składowe sinusoidalne, z których każda ma amplitudę i częstotliwość odpowiadającą określonej trajektorii moduł odtwarzania sygnału audio przyjmujący składowe sinusoidalne i zwracający ich sumę. Cechą szczególną dekodera według wynalazku jest to, że obejmuje on ponadto moduł przystosowany do generowania losowo niezakodowanych współczynników na podstawie przynajmniej jednego parametru

PL 232 466 B1 przyjmujący ten parametr z danych wejściowych i przekazujący wygenerowane współczynniki do modułu transformaty odwrotnej. Korzystnie dekoder zawiera ponadto środki przystosowane do realizacji sposobu według wynalazku.

Opis figur rysunku

Przedmiot wynalazku został ukazany w przykładach wykonania na rysunku, na którym Fig. 1 przedstawia schemat blokowy kodera według wynalazku, Fig. 2 przedstawia schemat blokowy dekodera według wynalazku, Fig. 3 przedstawia sieć działań sposobu kodowania według wynalazku, Fig. 4 przedstawia sieć działań sposobu dekodowania według wynalazku, natomiast Fig. 5 przedstawia ilustrację rozkładu segmentów trajektorii w ramkach.

Opis przykładów wykonania

W pierwszym przykładzie wykonania sposób według wynalazku został zaimplementowany w koderze według wynalazku ukazanym na Fig. 1. Koder ten pozwala przetworzyć sygnał audio w skomprymowany ciąg danych, które mogą być zapisane na nośniku pamięci lub przesłane kanałem telekomunikacyjnym. Koder 110 zawiera przetwornik analogowo-cyfrowy 111, taki jak np. AD1877, przyjmujący analogowy sygnał audio, a dający na wyjściu ciąg próbek sygnału oraz układ cyfrowego procesora sygnału 112 zrealizowany w technice FPGA, na przykład Xilinx Spartan 6, który realizuje proces przetwarzania próbek 114 sygnału 113 na ciąg skomprymowanych danych 115.

Schemat blokowy dekodera 210 według wynalazku przedstawiono na Fig. 2. Dekoder 210 zawiera jednostkę przetwarzania sygnału 211 zrealizowaną w technice FPGA, na przykład Spartan6 firmy Xilinx przystosowany do przetwarzania skomprymowanych danych 213 na próbki sygnału w postaci cyfrowej 214. Wyjście procesora sygnału jest połączone z przetwornikiem cyfrowo-analogowym 212 np. 16 bitowym przetwornikiem AD1851, przetwarzającym próbki sygnału na postać analogową sygnału 215. Wyjście przetwornika cyfrowo-analogowego 212 jest podłączone do zewnętrznego głośnika konwertującego analogowy sygnał audio na falę dźwiękową.

Procesor sygnału 112 realizuje kodowanie według sieci działań uwidocznionej na Fig. 3. Pierwszym etapem przetwarzania jest pobieranie próbek sygnału audio cyfrowego sygnału audio 114. Następnie na reprezentacji cyfrowej sygnału przeprowadza się etap wyznaczania składników sinusoidalnych 312 modelu sinusoidalnego lub modelu sinusoidalno-szumowego. Etap ten realizuje się według znanych metod opisanych w literaturze R.J. McAulay, T.F. Quatieri, Speech analysis/synthesis based on a sinusoidal representation, IEEE Transactions on Acoustics, Speech, and Signal Processing ASSP-34 (4), 1986, oraz X. Serra. J.O. Smith, Spectral Modeling Synthesis: A Sound Analysis/Synthesis System Based on a Deterministic Plus Stochastic Decomposition, Computer Music Journal, vol. 14, vo. 4, 1990. Wynikiem wyznaczania składowych sinusoidalnych 312 jest tablica 313, opisująca wartości częstotliwości składników sinusoidalnych sygnału, oraz tablica 314, opisująca wartości amplitud tych składników. Parametry fazy nie są kodowane, ponieważ informacja o fazie nie jest niezbędna dla uzyskania dobrej jakości zdekodowanego sygnału. Każdy wiersz obu tablic zawiera dane jednego składnika sygnału, które to dane są nazywane trajektorią sinusoidalną. Udoskonalone kodowanie informacji o przebiegu trajektorii sinusoidalnych w czasie jest kluczowe w przedmiotowym wynalazku. Trajektorie sinusoidalne koduje się niezależnie.

W celu zakodowania, każda trajektoria opisująca zmiany częstotliwości lub zmiany amplitudy składnika sinusoidalnego podlega w etapie 315 podziałowi na segmenty o długości N ramek. W każdym segmencie wartości częstotliwości oraz amplitudy zostają w blokach 316 i 317 odwzorowane w skali logarytmicznej, zgodnie ze wzorem:

Xi_Og(n,k) = log_ax(n,k) w którym x(n,k) oznacza amplitudę lub częstotliwość pojedynczej składowej o indeksie k z zakresu od 1 do K sygnału w ramce n z zakresu od 0 do N-1, a wielkość a oznacza podstawę zastosowanego logarytmu. Wektor wartości χ_ί03(η,k), odpowiadający bieżącemu segmentowi, zostaje poddany przekształceniu do dziedziny częstotliwości przy pomocy transformaty ortogonalnej 318 i 319, takiej jak dyskretna transformata kosinusowa znana z literatury N. Ahmed, T. Natarajan, K.R. Rao, Discrete Cosine Transform, IEEE Transactions on Computers, vol.C-23, no.1, pp.90-93, Jan. 1974, lub innej podobnej transformacji, której wynikiem jest wektor współczynników widmowych, X(m, k), zgodnie ze wzorem

X(m,k) = w_r

ΣΝ—1

Xiog⁽n, ^φ^η) n=0

PL 232 466 B1 gdzie φ_η(η) oznacza funkcję bazową transformacji, reprezentującą składową widmową o indeksie m z zakresu od 0 do N - 1, a w_m jest współczynnikiem normalizującym tej funkcji. Wartości współczynników transformaty X(m, k) zostają skwantowane w etapie kwantyzacji niezależnie w kwantyzatorach 320 i 321 z krokiem kwantyzacji zapewniającym stosownie mały błąd częstotliwości oraz amplitudy sygnału po rekonstrukcji w dekoderze na przykład odpowiadającym błędowi częstotliwości poniżej 10 ct oraz błędowi amplitudy poniżej 1 dB. Sposób kwantowania oraz zasady doboru przedziału kwantyzacji są znane specjalistom z dziedziny i szczegółowo opisane na przykład w dokumencie: L.R. Rabiner, R. W. Schafer, „Digital Processing of Speech Signals, Prentice Hall, 1978, oraz M. Bosi, R. E. Goldberg, „Introduction to Digital Audio Coding and Standards, Springer, 2003. Kluczowym etapem dla uzyskania wysokiego stopnia kompresji jest etap kwantyzacji i selekcji tylko nielicznych wartości skwantowanych współczynników X(m,k)do dalszego kodowania. Bloki selekcji 322 i 323 realizują ten etap, odrzucając wszystkie współczynniki o wartościach bezwzględnych poniżej pewnego progu albo odrzucając arbitralnie przyjętą liczbę współczynników o najmniejszych wartościach bezwzględnych. W kolejnych etapach kodowaniu podlega tablica indeksów wybranych współczynników 324 i 326 oraz tablica wartości wybranych współczynników 325 i 327. Współczynniki, które nie zostały wybrane, są tracone. Korzystnie zamiast nich przesyła się dodatkowy parametr, ACEnergy, reprezentujący ich całkowitą energię. Taki zabieg umożliwia odtworzenie w dekoderze współczynników odpowiadających utraconym, w taki sposób, że energia sygnału nie ulega zmianie. Taki zabieg korzystnie wpływa na odbiór jakości dźwięku przez człowieka. Dodatkową poprawę można uzyskać przekazując informację o kształcie obwiedni utraconych współczynników w formie drugiego parametru, który może przyjąć trzy wartości reprezentujące odpowiednio funkcje Poissona, Gaussa lub wykładniczą.

W kolejnym etapie 328 zawartość wszystkich tablic jest kodowana jedną ze znanych metod kodowania entropijnego, taką jak kod Huffmana znany z literatury D. A. Huffman, A Method for the Construction of Minimum-Redundancy Codes, Proceedings of the IRE, vol. 40, no. 9, pp.1098-1101, Sept. 1952, wynikiem której jest wyprowadzany ciąg skomprymowanych danych 115.

Fig. 4 przedstawia sieć działań sposobu dekodowania według wynalazku, wykonywanego przez układ jednostki przetwarzania sygnału 211. W pierwszym kroku dekoder kodu entropijnego 411 dekoduje przesłane skomprymowane dane 115, odtwarzając zawartość tablic indeksów 324 i 326 oraz wartości liczbowych 325 i 327 skwantowanych współczynników transformaty. W kolejnym etapie inicjowane są wektory współczynników transformaty, które wstępnie wypełnione są wartościami zero. W blokach rekonstrukcji 412 i 413 umieszcza się w tych wektorach zdekodowane niezerowe wartości współczynników na pozycjach odpowiadających zdekodowanym indeksom. W kolejnym etapie w blokach 414 i 415 następuje skalowanie skwantowanych wartości współczynników przez wartość przedziału kwantyzacji zastosowaną w kwantyzatorach 320 i 321, w celu odtworzenia pierwotnego zakresu dynamicznego współczynników transformaty. Niezakodowane, pominięte i usunięte przy kodowaniu współczynniki odtwarza się z wykorzystaniem przesłanego zamiast nich parametru ACEnergy. Parametr ten określa energię wszystkich współczynników, które nie zostały wybrane w procesie kodowania. Brakujące współczynniki odtwarza się w sposób losowy, przy zachowaniu założonego rozkładu energii współczynników. Zwykle rozkładowi energii współczynników dobrze odpowiada rozkład Poissona. Opcjonalnie można przesłać dodatkowo drugi parametr, ACEnvelope, określający rodzaj obwiedni, która przybliża rozkład energii w całym zakresie współczynników. W zależności od charakteru kodowanego sygnału parametr ten może wskazywać, że obwiednia odpowiada funkcji wykładniczej, funkcji Gaussa lub funkcji Poissona.

Moduł odtwarzania energii działa zarówno dla współczynników AC trajektorii częstotliwości jak i dla trajektorii amplitudy. Wprowadza to do sygnału pewną losowość - szum, który został utracony w procesie kodowania. Rozkład energii modelowany funkcjami Poissona/Gaussa/wykładniczy odpowiada charakterowi rozkładu występującego w naturalnych sygnałach muzycznych.

Następnie obliczana jest odwrotna transformacja 416 i 417, według wzoru:

ΣΝ—1

X⁽m, k⁾W_m ⁽n⁾, m=0 w którym X(m,k) oznacza odtworzoną wartość skwantowanego współczynnika transformaty, 2iog(n,k) oznacza odtworzoną logarytmiczną wartość częstotliwości lub odtworzoną logarytmiczną wartość amplitudy sygnału w ramce o indeksie n trajektorii składnika sinusoidalnego o indeksie k sygnału zdekodowanego w bieżącym segmencie trajektorii, Ψ„(η) jest funkcją bazową transformacji odwrotnej do transformacji stosowanej przy kodowaniu, zaś v_n jest współczynnikiem normalizującym tej

PL 232 466 B1 funkcji. Operacje kodowania z wykorzystaniem transformacji są szeroko znane z literatury dziedziny na przykład N.S.Jayant, P.Noll, Digital Coding of Waveforms: Principles and Applications to Speech and Video, Prentice-Hall, 1984, oraz K. Sayood, Introduction to Data Compression, Morgan Kaufmann, 2000. W kolejnym etapie, odtworzone wartości logarytmiczne częstotliwości i amplitudy są odwzorowywane do skali liniowej za pomocą przekształcenia antylogarytmicznego 418 i 419, według wzoru x(n, k) =

W którym wartość a oznacza podstawę logarytmu zastosowaną w koderze, a x_log(n,k) oznacza odtworzoną wartość częstotliwości lub amplitudy w ramce o indeksie n bieżącego segmentu trajektorii sinusoidalnej opisującej składnik o indeksie k dekodowanego sygnału. W kolejnym etapie dekodowania odtworzone segmenty trajektorii łączone są w blokach 420 i 421 z segmentami już zdekodowanymi w celu odzyskania ciągłości przebiegu trajektorii.

Ostatnim etapem dekodowania jest synteza sygnału 214 opisanego trajektoriami sinusoidalnymi, która odbywa się w bloku 422 technikami znanymi z literatury na przykład R.J. McAulay, T.F. Quatieri, Speech analysis/synthesis based on a sinusoidal representation, IEEE Transactions on Acoustics, Speech, and Signal Processing ASSP-34 (4), 1986.

Fig. 5 ilustruje przebieg trajektorii w kodowanych ramkach, z zaznaczeniem przykładowego segmentu. Poprzez wyprowadzenie w koderze w pierwszej kolejności współczynników uzyskanych z trajektorii stanowiących kontynuację trajektorii zakodowanych w poprzednich ramkach unika się konieczności oznaczania dla wszystkich trajektorii w ramce znaczników początku końca i kontynuacji. Dzięki temu w dekoderze można odtworzyć ciągłe trajektorie nie stosując sygnalizacji początku, kontynuacji i końca trajektorii sinusoidalnej. W konsekwencji uzyskuje się lepszą kompresję.

Ujawniany wynalazek umożliwia znaczącą, wielokrotną redukcję liczby bitów wymaganej dla zakodowania sygnału i pozwala na zachowanie dobrej jakości zdekodowanego sygnału przy prędkościach bitowych w zakresie 8kb/s - 16kb/s.

Dla specjalisty z dziedziny jest jasnym, że wynalazek można urzeczywistnić na wiele różnych sposobów i posługując się różnymi typowymi urządzeniami. Jest jasnym, że rozmaite modyfikacje przykładów wykonania wynalazku z zastosowaniem macierzy FPGA, układów AISIC, procesorów sygnałowych i innych typowych podzespołów mieszczą się w zakresie ochrony.

Claims

Zastrzeżenia patentowe

1. Sposób kodowania sygnału audio, obejmujący etapy: pobierania próbek sygnału audio, wyznaczania składników sinusoidalnych (312) w kolejnych ramkach, estymacji amplitud (314) i częstotliwości (313) tych składników w każdej ramce, łączenia tak uzyskanych par w trajektorie sinusoidalne, podziału poszczególnych trajektorii na segmenty, przekształcania (318, 319) poszczególnych trajektorii za pomocą transformaty cyfrowej wyznaczanej w segmentach dłuższych niż czas trwania ramki do dziedziny częstotliwości, kwantyzacji (320, 321) i selekcji (322, 323) współczynników transformaty w segmentach, kodowania entropijnego (328), wyprowadzenia skwantowanych współczynników jako danych wyjściowych (115), znamienny tym, że długość segmentów, na jakie dzielona jest każda trajektoria, dostosowuje się indywidualnie w czasie dla każdej trajektorii.
2. Sposób według zastrz. 1, znamienny tym, że długość segmentów na jakie dzielona jest każda trajektoria ustala się w procesie optymalizacji przyjmując za kryterium minimalizację przepływności danych wyjściowych.
3. Sposób według zastrz. 1 albo 2, znamienny tym, że w etapie kwantyzacji poziomy kwantyzacji dobiera się indywidualnie dla każdej z trajektorii.
4. Sposób według zastrz. 3, znamienny tym, że poziomy kwantyzacji ustala się w kolejnych segmentach.

PL 232 466 B1
5. Sposób według dowolnego z zastrz. od 1 do 4, znamienny tym, że w poszczególnych segmentach ustala się indywidualnie liczbę współczynników trajektorii podlegających kodowanych kodem entropijnym.
6. Sposób według dowolnego z zastrz. od 1 do 5, znamienny tym, że przed poddaniem transformacji cyfrowej trajektorie sinusoidalne poddaje się przekształceniu nieliniowemu.
7. Sposób według dowolnego z zastrz. od 1 od 6, znamienny tym, że wybrane współczynniki transformaty wybranych trajektorii zastępuje się przynajmniej jednym parametrem rozkładu szumu.
8. Sposób według dowolnego z zastrz. od 1 do 7, znamienny tym, że przynajmniej jeden parametr rozkładu szumu reprezentuje energię niezakodowanych współczynników.
9. Sposób według dowolnego z zastrz. od 1 do 8, znamienny tym, że skwantowane współczynniki wyprowadza się tak, że najpierw wyprowadza się współczynniki uzyskane z trajektorii stanowiących kontynuację trajektorii zakodowanych w poprzednich ramkach.
10. Sposób dekodowania sygnału audio obejmujący etapy: pobierania zakodowanych danych, odtwarzania (411,412, 413, 414, 415) z zakodowanych danych współczynników transformaty cyfrowej segmentów trajektorii, poddawania tych współczynników transformacji odwrotnej (416, 417) i odtwarzania segmentów trajektorii, generowania (420, 421) składowych sinusoidalnych, z których każda ma amplitudę i częstotliwość odpowiadającą określonej trajektorii, odtwarzania sygnału audio przez sumowanie składowych sinusoidalnych, znamienny tym, że brakujące współczynniki transformaty trajektorii składowych sinusoidalnych zastępuje się próbkami szumu generowanymi na podstawie przynajmniej jednego parametru, który został umieszczony w zakodowanych danych zamiast brakujących współczynników.
11. Sposób według zastrz. 10, znamienny tym, że wspomniany przynajmniej jeden parametr stanowi energia niezakodowanych współczynników.
12. Sposób według zastrz. 11, znamienny tym, że niezakodowane współczynniki odtwarza się wykonując losowanie z wagami odpowiadającymi rozkładowi określonemu przez dodatkowy parametr.
13. Sposób według zastrz. 12, znamienny tym, że wspomniany rozkład stanowi rozkład Poissona.
14. Sposób według zastrz. 10 albo 11 , albo 12, albo 13, znamienny tym, że trajektorie poddaje się, po odtworzeniu za pomocą transformaty odwrotnej, odwrotnemu przekształceniu nieliniowemu.
15. Sposób według dowolnego z zastrz. od 10 do 14, znamienny tym, że kolejność wyprowadzania współczynników trajektorii stanowiących kontynuację segmentów trajektorii odtworzonych w poprzednich ramkach odpowiada kolejności odtwarzania dekodowanych segmentów trajektorii.
16. Koder (110) sygnału audio zawierający przetwornik analogowo cyfrowy (111) oraz jednostkę przetwarzającą (112) wyposażoną w:

moduł pobierania próbek sygnału audio, moduł wyznaczania przyjmujący próbki sygnału audio z modułu pobierania próbek sygnału audio i przetwarzający je na składowe sinusoidalne w kolejnych ramkach, moduł estymacji przyjmujący próbki składowych sinusoidalnych z modułu pobierania próbek sygnału audio i zwracający ich amplitudy i częstotliwości w każdej ramce, moduł syntezy generujący trajektorie sinusoidalne na podstawie wartości amplitudy i częstotliwości, moduł podziału przyjmujący trajektorie z modułu syntezy i dzielący je na segmenty, moduł przekształcania transformujący segmenty trajektorii za pomocą transformaty cyfrowej do dziedziny częstotliwości, moduł kwantyzacji i selekcji , przetwarzający wybrane współczynniki transformaty na wartości wynikające z ustalonych poziomów kwantyzacji i odrzucający pozostałe współczynniki,

PL 232 466 B1 moduł kodowania entropijnego kodujący skwantowane współczynniki wyprowadzone z modułu kwantyzacji i selekcji, oraz moduł wyprowadzenia danych wyjściowych znamienny tym, że zawiera moduł podziału, który jest przystosowany do ustalania długości segmentu indywidualnie dla każdej trajektorii i modyfikowania tej długości w funkcji czasu.
17. Koder według zastrz. 16, znamienny tym, że jest wyposażony w środki do realizacji etapów określonych w dowolnym z zastrz. od 2 do 9.
18. Dekoder (210) sygnału audio zawierający przetwornik cyfrowo analogowy (212) oraz jednostkę przetwarzającą (211) wyposażoną w:

moduł pobierania zakodowanych danych, moduł odtwarzania przyjmujący zakodowane dane i zwracający współczynniki transformaty cyfrowej segmentów trajektorii, moduł transformaty odwrotnej przyjmujący współczynniki transformaty i zwracający odtworzone segmenty trajektorii moduł generowania składowych sinusoidalnych, przyjmujący odtworzone segmenty trajektorii i zwracający składowe sinusoidalne, z których każda ma amplitudę i częstotliwość odpowiadającą określonej trajektorii moduł odtwarzania sygnału audio przyjmujący składowe sinusoidalne i zwracający ich sumę, znamienny tym, że zawiera moduł przystosowany do losowego generowania niezakodowanych współczynników na podstawie przynajmniej jednego parametru, przyjmujący ten parametr z danych wejściowych i przekazujący wygenerowane współczynniki do modułu transformaty odwrotnej.
19. Dekoder według zastrz. 18, znamienny tym, że zawiera ponadto środki przystosowane do realizacji sposobu według dowolnego z zastrz. od 10 do 15.