PL232466B1 - Sposób kodowania, sposób dekodowania, koder oraz dekoder sygnału audio - Google Patents

Sposób kodowania, sposób dekodowania, koder oraz dekoder sygnału audio

Info

Publication number
PL232466B1
PL232466B1 PL410945A PL41094515A PL232466B1 PL 232466 B1 PL232466 B1 PL 232466B1 PL 410945 A PL410945 A PL 410945A PL 41094515 A PL41094515 A PL 41094515A PL 232466 B1 PL232466 B1 PL 232466B1
Authority
PL
Poland
Prior art keywords
coefficients
module
trajectory
segments
sinusoidal
Prior art date
Application number
PL410945A
Other languages
English (en)
Other versions
PL410945A1 (pl
Inventor
Maciej BARTKOWIAK
Maciej Bartkowiak
Tomasz Żernicki
Łukasz Januszkiewicz
Marcin CHRYSZCZANOWICZ
Marcin Chryszczanowicz
Original Assignee
Zylia Spolka Z Ograniczona Odpowiedzialnoscia
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zylia Spolka Z Ograniczona Odpowiedzialnoscia filed Critical Zylia Spolka Z Ograniczona Odpowiedzialnoscia
Priority to PL410945A priority Critical patent/PL232466B1/pl
Priority to US15/544,341 priority patent/US10734005B2/en
Priority to PCT/IB2016/050222 priority patent/WO2016116844A1/en
Priority to PL16706257T priority patent/PL3248190T3/pl
Priority to EP16706257.9A priority patent/EP3248190B1/en
Publication of PL410945A1 publication Critical patent/PL410945A1/pl
Publication of PL232466B1 publication Critical patent/PL232466B1/pl

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/14Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/087Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using mixed excitation models, e.g. MELP, MBE, split band LPC or HVXC
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/093Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using sinusoidal excitation models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

Opis wynalazku
Dziedzina
Wynalazek dotyczy kodowania oraz dekodowania sygnału audio. Ściślej wynalazek dotyczy kodowania oraz dekodowania sygnału audio z zastosowaniem dekompozycji na trajektorie sinusoidalne oraz kodowania entropijnego.
Stan Techniki
Cyfrowa nieskompresowana reprezentacja sygnału audio wysokiej jakości (na przykład jakości porównywalnej z jakością oferowaną przez zapis na dysku kompaktowym) wymaga dużej ilości danych. Obecnie powszechnie stosowane są kodery służące do zmniejszenia tej ilości danych przed zapisem na nośnikach danych lub przed transmisją cyfrową. Opracowanych zostało wiele różnych koderów sygnałów audio. Zostały one przedstawione w literaturze naukowej, między innymi w K. Brandenburg, Perceptual Coding of High Quality Digital Audio w: Applications of Digital Signal Processing to Audio and Acoustics, M. Kahrs, K. Brandenburg (red.), Kluwer Academic Publishers, 1998, oraz M. Bosi, R.E. Goldberg, Introduction to digital audio coding and standards, Springer, 2003, a także A. Spanias, V. Atti, T. Painter, Audio signal processing and coding, Wiley 2007.
Największą popularność zyskały kodery wykorzystujące reprezentację sygnału audio w dziedzinie częstotliwości przy pomocy zespołów filtrów podpasmowych lub transformacji blokowych. Dekodery przystosowane do dekodowania sygnałów zakodowanych takimi technikami kompresji są powszechnie wykorzystywane w systemach telekomunikacyjnych oraz sprzęcie elektroakustycznym powszechnego użytku, takich jak przenośny odtwarzacz muzyki, i najczęściej mają postać specjalizowanego układu scalonego. Zasada działania tych urządzeń jest także podstawą wielu międzynarodowych i komercyjnych standardów kompresji dźwięku, takich jak ISO/IEC JTC1/SC29/WG11 MPEG, International Standard ISO/IEC 11172-3, Information Technology - Coding of Moving Pictures and Associated Audio for Digital Storage Media at up to About 1.5 Mbit/s, part 3: Audio, oraz ISO/IEC JTC1/SC29/WG11 MPEG, International Standard ISO/IEC 14496-3, Coding of Audio-Visual Objects: Audio, a także Advanced Television Systems Committee, Document A/52:2010, Digital Audio Compression Standard (AC-3, E-AC-3), oraz 3GPP TS 26.410, General audio codec audio processing functions; Enhanced aacPlus general audio codec.
Inną, mniej popularną grupą koderów i dekoderów sygnałów audio są kodery i dekodery sinusoidalne. Kodery i dekodery sinusoidalne również reprezentują sygnał w dziedzinie częstotliwości. W szczególności reprezentacja wykorzystywana w koderach i dekoderach sinusoidalnych jest sumą ważoną funkcji sinusoidalnie zmiennych. Ściślej ujmując, dla składowych tych ciągłej zmianie w czasie podlega amplituda chwilowa oraz częstotliwość chwilowa i faza chwilowa, która jest powiązana z częstotliwością chwilową. Kompresja sygnału w takiej reprezentacji osiągana jest dzięki przybliżaniu przebiegu zmian częstotliwości chwilowej i amplitudy chwilowej składników dźwięku prostymi funkcjami interpolacyjnymi, takimi jak wielomian niskiego stopnia. Możliwe jest przesłanie informacji o częstotliwości oraz amplitudzie dla każdej składowej w znacznie większych odstępach czasu niż odstęp próbkowania dla próbek sygnału oryginalnego. W sygnale rekonstruowanym wartość częstotliwości chwilowej i amplitudy chwilowej każdej składowej sinusoidalnej dla każdej próbki sygnału jest interpolowana w oparciu o przesłane dane. Zasada działania kodera sinusoidalnego została opisana w literaturze naukowej, między innymi w R.J. McAulay, T.F. Quatieri, „Speech analysis/synthesis based on a sinusoidal representation, IEEE Transactions on Acoustics, Speech, and Signal Processing ASSP-34 (4), 1986, H. Purnhagen, „Very Low Bit Rate Parametric Audio Coding, 2008, a także F. Myburg, Design of a Scalable Parametric Audio Coder, 2004. Ten rodzaj kompresji jest również podstawą standardów międzynarodowych, takich jak ISO/IEC 14496-3/AMD1, Coding of audiovisual objects - Part 3: Audio (MPEG-4 Audio Version 2) Harmonic and Individual Lines plus Noise, oraz ISO/IEC JTC1/SC29/WG11 MPEG, International Standard ISO/IEC 14496-3:2001/AMD2, Sinusoidal Coding, a także w licznych dokumentach patentowych.
Dokument patentowy US 4,885,790 Processing of acoustic waveforms dotyczy kodowania sygnałów mowy opartego na modelu sinusoidalnym. W publikacji tej opisano metodę oraz urządzenie, które dzielą sygnał mowy w czasie na wiele segmentów. W każdym segmencie czasu przy pomocy bloku DFT (Digital Fourier Transform) wyznaczane są amplitudy, częstotliwości i fazy składowych sinusoidalnych związanych z każdym maksimum widma amplitudowego sygnału mowy. Następnie algorytm śledzący łączy częstotliwości, amplitudy i fazy składowych w bieżącym segmencie z częstotliwościami,
PL 232 466 B1 amplitudami i fazami składowych w poprzednim segmencie na podstawie najmniejszej różnicy częstotliwości. Rezultatem działania algorytmu śledzącego są trajektorie sinusoidalne opisujące zmiany częstotliwości, amplitudy i fazy każdego sinusoidalnego składnika sygnału zakodowane z odstępem próbkowania wielokrotnie większym niż odstęp próbkowania dla pierwotnego sygnału audio. Trajektorie te są następnie kodowane znanymi technikami, takimi jak PCM (Pulse Code Modulation) lub ADPCM (Adaptive Differential Pulse Code Modulation), opisanymi w L.R. Rabiner, R. W. Schafer, Digital Processing of Speech Signals, Prentice Hall, 1978, oraz M. Bosi, R. E. Goldberg, Introduction to Digital Audio Coding and Standards, Springer, 2003.
Dokument patentowy WO 03/036619 A1 Frequency-differential encoding of sinusoidal model parameters ujawnia metodę kompresji sygnału audio, w której sinusoidalne składniki dźwięku są zakodowane tak, że do dekodera przesyła się bezpośrednią reprezentację częstotliwości, amplitudy i fazy danego składnika w bieżącym segmencie czasu albo przesyła się do dekodera odpowiednie różnice pomiędzy częstotliwością, amplitudą oraz fazą danego składnika w bieżącym segmencie czasu a częstotliwością, amplitudą oraz fazą najbardziej zbliżonego składnika z poprzedniego segmentu czasu. Metoda ta zawiera algorytm optymalizacyjny, który minimalizuje całkowity koszt transmisji sygnału poprzez wybór jednego z dwóch wymienionych sposobów zakodowania.
Dokument patentowy US 7,640,156 B2 Low bit-rate audio encoding dotyczy parametrycznego kodowania sygnału audio, które wykorzystuje trzy modele składników sygnału. W publikacji tej opisano metodę oraz urządzenie dokonujące dekompozycji oryginalnego sygnału audio na składniki, które daje się przybliżać sumą składowych impulsowych, zmodulowanych sinusoid o wolnozmiennych parametrach, oraz szumu, którego widmo daje się przybliżyć charakterystyką filtru autoregresyjnego, którego parametry wyznaczane są znaną techniką predykcji liniowej (LPC).
Dokument patentowy US 7,664,633 B2 Audio coding via creation of sinusoidal tracks and phase determination ujawnia rozszerzoną metodę kodowania sygnału audio, wykorzystującą trzy modele składników sygnału przybliżane sumą składowych impulsowych, zmodulowanych sinusoid oraz szumu. W dokumencie tym opisano sposób zakodowania przebiegu trajektorii sinusoidalnych, uwzględniający wzajemną zależność fazy oraz częstotliwości, co wykorzystano we wspólnym procesie kodowania obu informacji. W celu zwiększenia efektywności kodowania wartości fazy poddawane są predykcji liniowej drugiego rzędu i przesyłany jest skwantowany błąd predykcji. Z uwagi na konieczność zachowania jednoznaczności określania fazy składników sinusoidalnych w kolejnych ramkach, algorytm śledzenia trajektorii sinusoidalnych nie dopuszcza do śledzenia składników o głębokich zmianach częstotliwości w czasie, co prowadzi do dużej fragmentacji trajektorii.
Podstawowym ograniczeniem wszystkich dotychczasowych znanych metod kodowania sygnału audio w oparciu o model sinusoidalny lub sinusoidalno-szumowy jest mała efektywność reprezentacji trajektorii sinusoidalnych, wynikająca z nieuwzględnienia długoczasowej stabilności i przewidywalności zmian parametrów składników sinusoidalnych dźwięków mowy i muzyki. Celem niniejszego wynalazku jest rozwiązanie tego problemu i wielokrotna redukcja liczby bitów wymaganej dla reprezentacji sygnału przy zachowaniu dobrej jakości zdekodowanego sygnału.
Istota wynalazku
Sposób kodowania sygnału audio według wynalazku obejmuje realizowane kolejno etapy: pobierania próbek sygnału audio, wyznaczania składników sinusoidalnych w kolejnych ramkach, estymacji amplitud i częstotliwości tych składników w każdej ramce, łączenia tak uzyskanych par w trajektorie sinusoidalne, podziału poszczególnych trajektorii na segmenty, przekształcania poszczególnych trajektorii za pomocą transformaty cyfrowej wyznaczanej w segmentach dłuższych niż czas trwania ramki do dziedziny częstotliwości, kwantyzacji i selekcji współczynników transformaty w segmentach oraz kodowania entropijnego wyprowadzenia skwantowanych współczynników jako danych wyjściowych. Sposób ten charakteryzuje się tym, że długość segmentów na jakie dzielona jest każda trajektoria dostosowuje indywidualnie w czasie dla każdej z trajektorii.
Korzystnie długość segmentów na jakie dzielona jest każda trajektoria ustala się w procesie optymalizacji przyjmując za kryterium minimalizację przepływności danych wyjściowych.
W etapie kwantyzacji poziomy kwantyzacji korzystnie dobiera się indywidualnie dla każdej z trajektorii, a jeszcze bardziej korzystnie poziomy kwantyzacji ustala się dla kolejnych segmentów.
Korzystnie dla poszczególnych segmentów ustala się liczbę współczynników trajektorii podlegających kodowanych kodem entropijnym.
Przed poddaniem transformacji cyfrowej trajektorie sinusoidalne korzystnie poddaje się przekształceniu nieliniowemu.
PL 232 466 B1
Wybrane współczynniki transformaty wybranych trajektorii korzystnie zastępuje się przynajmniej jednym parametrem sygnału który korzystnie stanowi energia tych współczynników. Dzięki temu, że w zakodowanym przebiegu trajektorii zamiast odrzuconych współczynników zapisana jest ich energia możliwe jest później odtworzenie trajektorii z uwzględnieniem dodatkowej energii równej energii niezakodowanych współczynników. Tym samym niewielkim kosztem objętości przesyłanych danych uzyskuje się możliwość odtworzenia sygnału o bardziej naturalnym brzmieniu, pozbawionego charakterystycznych słyszalnych artefaktów związanych z redukcją liczby przesyłanych współczynników transformaty.
Skwantowane współczynniki wyprowadza się tak, że najpierw przesyła się współczynnik i uzyskane z trajektorii stanowiących kontynuację trajektorii zakodowanych w poprzednich ramkach. Dzięki temu w dekoderze można odtworzyć ciągłe trajektorie nie stosując sygnalizacji początku, kontynuacji i końca trajektorii sinusoidalnej. W konsekwencji uzyskuje się lepszą kompresję.
Sposób dekodowania sygnału audio według wynalazku obejmuje etapy: pobierania zakodowanych danych, odtwarzania z zakodowanych danych współczynników transformaty cyfrowej segmentów trajektorii, poddawania współczynników transformacie odwrotnej i odtwarzania segmentów trajektorii generowania składowych sinusoidalnych, z których każda ma amplitudę i częstotliwość odpowiadającą określonej trajektorii odtwarzania sygnału audio przez sumowanie składowych sinusoidalnych. Cechą szczególną sposobu dekodowania według wynalazku jest to, że brakujące współczynniki transformaty trajektorii składowych sinusoidalnych zastępuje się próbkami szumu generowanymi na podstawie przynajmniej jednego parametru, który został umieszczony w zakodowanych danych zamiast brakujących współczynników. Korzystnie przynajmniej jeden parametr stanowi energia niezakodowanych współczynników. Niezakodowane współczynniki korzystnie odtwarza się wykonując losowanie z wagami odpowiadającymi rozkładowi określonemu przez dodatkowy parametr.
Rozkład stanowi korzystnie rozkład Poissona wyróżniający się spośród innych rozkładów tym, że zapewnia naturalne brzmienie odtwarzanego dźwięku.
Trajektorie korzystnie poddaje się po odtworzeniu za pomocą transformaty odwrotnej odwrotnemu przekształceniu nieliniowemu odwrotnemu do przekształcenia nieliniowego zastosowanego przy kodowaniu.
Korzystnie kolejność wyprowadzania ze strumienia danych tych współczynników trajektorii stanowiących kontynuację segmentów trajektorii odtworzonych w poprzednich ramkach odpowiada kolejności odtwarzania dekodowanych segmentów trajektorii.
Koder sygnału audio według wynalazku zawiera przetwornik oraz jednostkę przetwarzania danych wyposażoną w: moduł pobierania próbek sygnału audio, moduł wyznaczania przyjmujący próbki sygnału audio z modułu pobierania próbek sygnału audio i przetwarzający je na składowe sinusoidalne w kolejnych ramkach, moduł estymacji przyjmujący próbki składowych sinusoidalnych z modułu pobierania próbek sygnału audio i zwracający ich amplitudy i częstotliwości w każdej ramce, moduł syntezy generujący trajektorie sinusoidalne na podstawie wartości amplitudy i częstotliwości, moduł podziału przyjmujący trajektorie z modułu syntezy i dzielący je na segmenty, moduł przekształcania transformujący segmenty trajektorii za pomocą transformaty cyfrowej do dziedziny częstotliwości, moduł k wantyzacji i selekcji, przetwarzający wybrane współczynniki transformaty na wartości wynikające z ustalonych poziomów kwantyzacji i odrzucający pozostałe współczynniki, moduł kodowania entropijnego kodujący skwantowane współczynniki wyprowadzone z modułu kwantyzacji i selekcji, oraz moduł wyprowadzenia danych wyjściowych. Koder według wynalazku cechuje się tym, że moduł podziału jest przystosowany do ustalania długości segmentu indywidualnie dla każdej trajektorii i modyfikowania tej długości w funkcji czasu.
Korzystnie koder jest wyposażony w środki do realizacji etapów sposobu kodowania według wynalazku.
Dekoder sygnału audio według wynalazku zawiera przetwornik oraz jednostkę układ danych wyposażony w: moduł pobierania zakodowanych danych, moduł odtwarzania przyjmujący zakodowane dane i zwracający współczynniki transformaty cyfrowej segmentów trajektorii, moduł transformaty odwrotnej przyjmujący współczynniki transformaty i zwracający odtworzone segmenty trajektorii moduł generowania składowych sinusoidalnych, przyjmujący odtworzone segmenty trajektorii i zwracający składowe sinusoidalne, z których każda ma amplitudę i częstotliwość odpowiadającą określonej trajektorii moduł odtwarzania sygnału audio przyjmujący składowe sinusoidalne i zwracający ich sumę. Cechą szczególną dekodera według wynalazku jest to, że obejmuje on ponadto moduł przystosowany do generowania losowo niezakodowanych współczynników na podstawie przynajmniej jednego parametru
PL 232 466 B1 przyjmujący ten parametr z danych wejściowych i przekazujący wygenerowane współczynniki do modułu transformaty odwrotnej. Korzystnie dekoder zawiera ponadto środki przystosowane do realizacji sposobu według wynalazku.
Opis figur rysunku
Przedmiot wynalazku został ukazany w przykładach wykonania na rysunku, na którym Fig. 1 przedstawia schemat blokowy kodera według wynalazku, Fig. 2 przedstawia schemat blokowy dekodera według wynalazku, Fig. 3 przedstawia sieć działań sposobu kodowania według wynalazku, Fig. 4 przedstawia sieć działań sposobu dekodowania według wynalazku, natomiast Fig. 5 przedstawia ilustrację rozkładu segmentów trajektorii w ramkach.
Opis przykładów wykonania
W pierwszym przykładzie wykonania sposób według wynalazku został zaimplementowany w koderze według wynalazku ukazanym na Fig. 1. Koder ten pozwala przetworzyć sygnał audio w skomprymowany ciąg danych, które mogą być zapisane na nośniku pamięci lub przesłane kanałem telekomunikacyjnym. Koder 110 zawiera przetwornik analogowo-cyfrowy 111, taki jak np. AD1877, przyjmujący analogowy sygnał audio, a dający na wyjściu ciąg próbek sygnału oraz układ cyfrowego procesora sygnału 112 zrealizowany w technice FPGA, na przykład Xilinx Spartan 6, który realizuje proces przetwarzania próbek 114 sygnału 113 na ciąg skomprymowanych danych 115.
Schemat blokowy dekodera 210 według wynalazku przedstawiono na Fig. 2. Dekoder 210 zawiera jednostkę przetwarzania sygnału 211 zrealizowaną w technice FPGA, na przykład Spartan6 firmy Xilinx przystosowany do przetwarzania skomprymowanych danych 213 na próbki sygnału w postaci cyfrowej 214. Wyjście procesora sygnału jest połączone z przetwornikiem cyfrowo-analogowym 212 np. 16 bitowym przetwornikiem AD1851, przetwarzającym próbki sygnału na postać analogową sygnału 215. Wyjście przetwornika cyfrowo-analogowego 212 jest podłączone do zewnętrznego głośnika konwertującego analogowy sygnał audio na falę dźwiękową.
Procesor sygnału 112 realizuje kodowanie według sieci działań uwidocznionej na Fig. 3. Pierwszym etapem przetwarzania jest pobieranie próbek sygnału audio cyfrowego sygnału audio 114. Następnie na reprezentacji cyfrowej sygnału przeprowadza się etap wyznaczania składników sinusoidalnych 312 modelu sinusoidalnego lub modelu sinusoidalno-szumowego. Etap ten realizuje się według znanych metod opisanych w literaturze R.J. McAulay, T.F. Quatieri, Speech analysis/synthesis based on a sinusoidal representation, IEEE Transactions on Acoustics, Speech, and Signal Processing ASSP-34 (4), 1986, oraz X. Serra. J.O. Smith, Spectral Modeling Synthesis: A Sound Analysis/Synthesis System Based on a Deterministic Plus Stochastic Decomposition, Computer Music Journal, vol. 14, vo. 4, 1990. Wynikiem wyznaczania składowych sinusoidalnych 312 jest tablica 313, opisująca wartości częstotliwości składników sinusoidalnych sygnału, oraz tablica 314, opisująca wartości amplitud tych składników. Parametry fazy nie są kodowane, ponieważ informacja o fazie nie jest niezbędna dla uzyskania dobrej jakości zdekodowanego sygnału. Każdy wiersz obu tablic zawiera dane jednego składnika sygnału, które to dane są nazywane trajektorią sinusoidalną. Udoskonalone kodowanie informacji o przebiegu trajektorii sinusoidalnych w czasie jest kluczowe w przedmiotowym wynalazku. Trajektorie sinusoidalne koduje się niezależnie.
W celu zakodowania, każda trajektoria opisująca zmiany częstotliwości lub zmiany amplitudy składnika sinusoidalnego podlega w etapie 315 podziałowi na segmenty o długości N ramek. W każdym segmencie wartości częstotliwości oraz amplitudy zostają w blokach 316 i 317 odwzorowane w skali logarytmicznej, zgodnie ze wzorem:
XiOg(n,k) = logax(n,k) w którym x(n,k) oznacza amplitudę lub częstotliwość pojedynczej składowej o indeksie k z zakresu od 1 do K sygnału w ramce n z zakresu od 0 do N-1, a wielkość a oznacza podstawę zastosowanego logarytmu. Wektor wartości χί03(η,k), odpowiadający bieżącemu segmentowi, zostaje poddany przekształceniu do dziedziny częstotliwości przy pomocy transformaty ortogonalnej 318 i 319, takiej jak dyskretna transformata kosinusowa znana z literatury N. Ahmed, T. Natarajan, K.R. Rao, Discrete Cosine Transform, IEEE Transactions on Computers, vol.C-23, no.1, pp.90-93, Jan. 1974, lub innej podobnej transformacji, której wynikiem jest wektor współczynników widmowych, X(m, k), zgodnie ze wzorem
X(m,k) = wr
ΣΝ—1
Xiog(n, ^φ^η) n=0
PL 232 466 B1 gdzie φη(η) oznacza funkcję bazową transformacji, reprezentującą składową widmową o indeksie m z zakresu od 0 do N - 1, a wm jest współczynnikiem normalizującym tej funkcji. Wartości współczynników transformaty X(m, k) zostają skwantowane w etapie kwantyzacji niezależnie w kwantyzatorach 320 i 321 z krokiem kwantyzacji zapewniającym stosownie mały błąd częstotliwości oraz amplitudy sygnału po rekonstrukcji w dekoderze na przykład odpowiadającym błędowi częstotliwości poniżej 10 ct oraz błędowi amplitudy poniżej 1 dB. Sposób kwantowania oraz zasady doboru przedziału kwantyzacji są znane specjalistom z dziedziny i szczegółowo opisane na przykład w dokumencie: L.R. Rabiner, R. W. Schafer, „Digital Processing of Speech Signals, Prentice Hall, 1978, oraz M. Bosi, R. E. Goldberg, „Introduction to Digital Audio Coding and Standards, Springer, 2003. Kluczowym etapem dla uzyskania wysokiego stopnia kompresji jest etap kwantyzacji i selekcji tylko nielicznych wartości skwantowanych współczynników X(m,k)do dalszego kodowania. Bloki selekcji 322 i 323 realizują ten etap, odrzucając wszystkie współczynniki o wartościach bezwzględnych poniżej pewnego progu albo odrzucając arbitralnie przyjętą liczbę współczynników o najmniejszych wartościach bezwzględnych. W kolejnych etapach kodowaniu podlega tablica indeksów wybranych współczynników 324 i 326 oraz tablica wartości wybranych współczynników 325 i 327. Współczynniki, które nie zostały wybrane, są tracone. Korzystnie zamiast nich przesyła się dodatkowy parametr, ACEnergy, reprezentujący ich całkowitą energię. Taki zabieg umożliwia odtworzenie w dekoderze współczynników odpowiadających utraconym, w taki sposób, że energia sygnału nie ulega zmianie. Taki zabieg korzystnie wpływa na odbiór jakości dźwięku przez człowieka. Dodatkową poprawę można uzyskać przekazując informację o kształcie obwiedni utraconych współczynników w formie drugiego parametru, który może przyjąć trzy wartości reprezentujące odpowiednio funkcje Poissona, Gaussa lub wykładniczą.
W kolejnym etapie 328 zawartość wszystkich tablic jest kodowana jedną ze znanych metod kodowania entropijnego, taką jak kod Huffmana znany z literatury D. A. Huffman, A Method for the Construction of Minimum-Redundancy Codes, Proceedings of the IRE, vol. 40, no. 9, pp.1098-1101, Sept. 1952, wynikiem której jest wyprowadzany ciąg skomprymowanych danych 115.
Fig. 4 przedstawia sieć działań sposobu dekodowania według wynalazku, wykonywanego przez układ jednostki przetwarzania sygnału 211. W pierwszym kroku dekoder kodu entropijnego 411 dekoduje przesłane skomprymowane dane 115, odtwarzając zawartość tablic indeksów 324 i 326 oraz wartości liczbowych 325 i 327 skwantowanych współczynników transformaty. W kolejnym etapie inicjowane są wektory współczynników transformaty, które wstępnie wypełnione są wartościami zero. W blokach rekonstrukcji 412 i 413 umieszcza się w tych wektorach zdekodowane niezerowe wartości współczynników na pozycjach odpowiadających zdekodowanym indeksom. W kolejnym etapie w blokach 414 i 415 następuje skalowanie skwantowanych wartości współczynników przez wartość przedziału kwantyzacji zastosowaną w kwantyzatorach 320 i 321, w celu odtworzenia pierwotnego zakresu dynamicznego współczynników transformaty. Niezakodowane, pominięte i usunięte przy kodowaniu współczynniki odtwarza się z wykorzystaniem przesłanego zamiast nich parametru ACEnergy. Parametr ten określa energię wszystkich współczynników, które nie zostały wybrane w procesie kodowania. Brakujące współczynniki odtwarza się w sposób losowy, przy zachowaniu założonego rozkładu energii współczynników. Zwykle rozkładowi energii współczynników dobrze odpowiada rozkład Poissona. Opcjonalnie można przesłać dodatkowo drugi parametr, ACEnvelope, określający rodzaj obwiedni, która przybliża rozkład energii w całym zakresie współczynników. W zależności od charakteru kodowanego sygnału parametr ten może wskazywać, że obwiednia odpowiada funkcji wykładniczej, funkcji Gaussa lub funkcji Poissona.
Moduł odtwarzania energii działa zarówno dla współczynników AC trajektorii częstotliwości jak i dla trajektorii amplitudy. Wprowadza to do sygnału pewną losowość - szum, który został utracony w procesie kodowania. Rozkład energii modelowany funkcjami Poissona/Gaussa/wykładniczy odpowiada charakterowi rozkładu występującego w naturalnych sygnałach muzycznych.
Następnie obliczana jest odwrotna transformacja 416 i 417, według wzoru:
ΣΝ—1
X(m, k)Wm (n), m=0 w którym X(m,k) oznacza odtworzoną wartość skwantowanego współczynnika transformaty, 2iog(n,k) oznacza odtworzoną logarytmiczną wartość częstotliwości lub odtworzoną logarytmiczną wartość amplitudy sygnału w ramce o indeksie n trajektorii składnika sinusoidalnego o indeksie k sygnału zdekodowanego w bieżącym segmencie trajektorii, Ψ„(η) jest funkcją bazową transformacji odwrotnej do transformacji stosowanej przy kodowaniu, zaś vn jest współczynnikiem normalizującym tej
PL 232 466 B1 funkcji. Operacje kodowania z wykorzystaniem transformacji są szeroko znane z literatury dziedziny na przykład N.S.Jayant, P.Noll, Digital Coding of Waveforms: Principles and Applications to Speech and Video, Prentice-Hall, 1984, oraz K. Sayood, Introduction to Data Compression, Morgan Kaufmann, 2000. W kolejnym etapie, odtworzone wartości logarytmiczne częstotliwości i amplitudy są odwzorowywane do skali liniowej za pomocą przekształcenia antylogarytmicznego 418 i 419, według wzoru x(n, k) =
W którym wartość a oznacza podstawę logarytmu zastosowaną w koderze, a xlog(n,k) oznacza odtworzoną wartość częstotliwości lub amplitudy w ramce o indeksie n bieżącego segmentu trajektorii sinusoidalnej opisującej składnik o indeksie k dekodowanego sygnału. W kolejnym etapie dekodowania odtworzone segmenty trajektorii łączone są w blokach 420 i 421 z segmentami już zdekodowanymi w celu odzyskania ciągłości przebiegu trajektorii.
Ostatnim etapem dekodowania jest synteza sygnału 214 opisanego trajektoriami sinusoidalnymi, która odbywa się w bloku 422 technikami znanymi z literatury na przykład R.J. McAulay, T.F. Quatieri, Speech analysis/synthesis based on a sinusoidal representation, IEEE Transactions on Acoustics, Speech, and Signal Processing ASSP-34 (4), 1986.
Fig. 5 ilustruje przebieg trajektorii w kodowanych ramkach, z zaznaczeniem przykładowego segmentu. Poprzez wyprowadzenie w koderze w pierwszej kolejności współczynników uzyskanych z trajektorii stanowiących kontynuację trajektorii zakodowanych w poprzednich ramkach unika się konieczności oznaczania dla wszystkich trajektorii w ramce znaczników początku końca i kontynuacji. Dzięki temu w dekoderze można odtworzyć ciągłe trajektorie nie stosując sygnalizacji początku, kontynuacji i końca trajektorii sinusoidalnej. W konsekwencji uzyskuje się lepszą kompresję.
Ujawniany wynalazek umożliwia znaczącą, wielokrotną redukcję liczby bitów wymaganej dla zakodowania sygnału i pozwala na zachowanie dobrej jakości zdekodowanego sygnału przy prędkościach bitowych w zakresie 8kb/s - 16kb/s.
Dla specjalisty z dziedziny jest jasnym, że wynalazek można urzeczywistnić na wiele różnych sposobów i posługując się różnymi typowymi urządzeniami. Jest jasnym, że rozmaite modyfikacje przykładów wykonania wynalazku z zastosowaniem macierzy FPGA, układów AISIC, procesorów sygnałowych i innych typowych podzespołów mieszczą się w zakresie ochrony.

Claims (19)

  1. Zastrzeżenia patentowe
    1. Sposób kodowania sygnału audio, obejmujący etapy: pobierania próbek sygnału audio, wyznaczania składników sinusoidalnych (312) w kolejnych ramkach, estymacji amplitud (314) i częstotliwości (313) tych składników w każdej ramce, łączenia tak uzyskanych par w trajektorie sinusoidalne, podziału poszczególnych trajektorii na segmenty, przekształcania (318, 319) poszczególnych trajektorii za pomocą transformaty cyfrowej wyznaczanej w segmentach dłuższych niż czas trwania ramki do dziedziny częstotliwości, kwantyzacji (320, 321) i selekcji (322, 323) współczynników transformaty w segmentach, kodowania entropijnego (328), wyprowadzenia skwantowanych współczynników jako danych wyjściowych (115), znamienny tym, że długość segmentów, na jakie dzielona jest każda trajektoria, dostosowuje się indywidualnie w czasie dla każdej trajektorii.
  2. 2. Sposób według zastrz. 1, znamienny tym, że długość segmentów na jakie dzielona jest każda trajektoria ustala się w procesie optymalizacji przyjmując za kryterium minimalizację przepływności danych wyjściowych.
  3. 3. Sposób według zastrz. 1 albo 2, znamienny tym, że w etapie kwantyzacji poziomy kwantyzacji dobiera się indywidualnie dla każdej z trajektorii.
  4. 4. Sposób według zastrz. 3, znamienny tym, że poziomy kwantyzacji ustala się w kolejnych segmentach.
    PL 232 466 B1
  5. 5. Sposób według dowolnego z zastrz. od 1 do 4, znamienny tym, że w poszczególnych segmentach ustala się indywidualnie liczbę współczynników trajektorii podlegających kodowanych kodem entropijnym.
  6. 6. Sposób według dowolnego z zastrz. od 1 do 5, znamienny tym, że przed poddaniem transformacji cyfrowej trajektorie sinusoidalne poddaje się przekształceniu nieliniowemu.
  7. 7. Sposób według dowolnego z zastrz. od 1 od 6, znamienny tym, że wybrane współczynniki transformaty wybranych trajektorii zastępuje się przynajmniej jednym parametrem rozkładu szumu.
  8. 8. Sposób według dowolnego z zastrz. od 1 do 7, znamienny tym, że przynajmniej jeden parametr rozkładu szumu reprezentuje energię niezakodowanych współczynników.
  9. 9. Sposób według dowolnego z zastrz. od 1 do 8, znamienny tym, że skwantowane współczynniki wyprowadza się tak, że najpierw wyprowadza się współczynniki uzyskane z trajektorii stanowiących kontynuację trajektorii zakodowanych w poprzednich ramkach.
  10. 10. Sposób dekodowania sygnału audio obejmujący etapy: pobierania zakodowanych danych, odtwarzania (411,412, 413, 414, 415) z zakodowanych danych współczynników transformaty cyfrowej segmentów trajektorii, poddawania tych współczynników transformacji odwrotnej (416, 417) i odtwarzania segmentów trajektorii, generowania (420, 421) składowych sinusoidalnych, z których każda ma amplitudę i częstotliwość odpowiadającą określonej trajektorii, odtwarzania sygnału audio przez sumowanie składowych sinusoidalnych, znamienny tym, że brakujące współczynniki transformaty trajektorii składowych sinusoidalnych zastępuje się próbkami szumu generowanymi na podstawie przynajmniej jednego parametru, który został umieszczony w zakodowanych danych zamiast brakujących współczynników.
  11. 11. Sposób według zastrz. 10, znamienny tym, że wspomniany przynajmniej jeden parametr stanowi energia niezakodowanych współczynników.
  12. 12. Sposób według zastrz. 11, znamienny tym, że niezakodowane współczynniki odtwarza się wykonując losowanie z wagami odpowiadającymi rozkładowi określonemu przez dodatkowy parametr.
  13. 13. Sposób według zastrz. 12, znamienny tym, że wspomniany rozkład stanowi rozkład Poissona.
  14. 14. Sposób według zastrz. 10 albo 11 , albo 12, albo 13, znamienny tym, że trajektorie poddaje się, po odtworzeniu za pomocą transformaty odwrotnej, odwrotnemu przekształceniu nieliniowemu.
  15. 15. Sposób według dowolnego z zastrz. od 10 do 14, znamienny tym, że kolejność wyprowadzania współczynników trajektorii stanowiących kontynuację segmentów trajektorii odtworzonych w poprzednich ramkach odpowiada kolejności odtwarzania dekodowanych segmentów trajektorii.
  16. 16. Koder (110) sygnału audio zawierający przetwornik analogowo cyfrowy (111) oraz jednostkę przetwarzającą (112) wyposażoną w:
    moduł pobierania próbek sygnału audio, moduł wyznaczania przyjmujący próbki sygnału audio z modułu pobierania próbek sygnału audio i przetwarzający je na składowe sinusoidalne w kolejnych ramkach, moduł estymacji przyjmujący próbki składowych sinusoidalnych z modułu pobierania próbek sygnału audio i zwracający ich amplitudy i częstotliwości w każdej ramce, moduł syntezy generujący trajektorie sinusoidalne na podstawie wartości amplitudy i częstotliwości, moduł podziału przyjmujący trajektorie z modułu syntezy i dzielący je na segmenty, moduł przekształcania transformujący segmenty trajektorii za pomocą transformaty cyfrowej do dziedziny częstotliwości, moduł kwantyzacji i selekcji , przetwarzający wybrane współczynniki transformaty na wartości wynikające z ustalonych poziomów kwantyzacji i odrzucający pozostałe współczynniki,
    PL 232 466 B1 moduł kodowania entropijnego kodujący skwantowane współczynniki wyprowadzone z modułu kwantyzacji i selekcji, oraz moduł wyprowadzenia danych wyjściowych znamienny tym, że zawiera moduł podziału, który jest przystosowany do ustalania długości segmentu indywidualnie dla każdej trajektorii i modyfikowania tej długości w funkcji czasu.
  17. 17. Koder według zastrz. 16, znamienny tym, że jest wyposażony w środki do realizacji etapów określonych w dowolnym z zastrz. od 2 do 9.
  18. 18. Dekoder (210) sygnału audio zawierający przetwornik cyfrowo analogowy (212) oraz jednostkę przetwarzającą (211) wyposażoną w:
    moduł pobierania zakodowanych danych, moduł odtwarzania przyjmujący zakodowane dane i zwracający współczynniki transformaty cyfrowej segmentów trajektorii, moduł transformaty odwrotnej przyjmujący współczynniki transformaty i zwracający odtworzone segmenty trajektorii moduł generowania składowych sinusoidalnych, przyjmujący odtworzone segmenty trajektorii i zwracający składowe sinusoidalne, z których każda ma amplitudę i częstotliwość odpowiadającą określonej trajektorii moduł odtwarzania sygnału audio przyjmujący składowe sinusoidalne i zwracający ich sumę, znamienny tym, że zawiera moduł przystosowany do losowego generowania niezakodowanych współczynników na podstawie przynajmniej jednego parametru, przyjmujący ten parametr z danych wejściowych i przekazujący wygenerowane współczynniki do modułu transformaty odwrotnej.
  19. 19. Dekoder według zastrz. 18, znamienny tym, że zawiera ponadto środki przystosowane do realizacji sposobu według dowolnego z zastrz. od 10 do 15.
PL410945A 2015-01-19 2015-01-19 Sposób kodowania, sposób dekodowania, koder oraz dekoder sygnału audio PL232466B1 (pl)

Priority Applications (5)

Application Number Priority Date Filing Date Title
PL410945A PL232466B1 (pl) 2015-01-19 2015-01-19 Sposób kodowania, sposób dekodowania, koder oraz dekoder sygnału audio
US15/544,341 US10734005B2 (en) 2015-01-19 2016-01-18 Method of encoding, method of decoding, encoder, and decoder of an audio signal using transformation of frequencies of sinusoids
PCT/IB2016/050222 WO2016116844A1 (en) 2015-01-19 2016-01-18 Method of encoding, method of decoding, encoder, and decoder of an audio signal
PL16706257T PL3248190T3 (pl) 2015-01-19 2016-01-18 Sposób kodowania, sposób dekodowania, koder oraz dekoder sygnału audio
EP16706257.9A EP3248190B1 (en) 2015-01-19 2016-01-18 Method of encoding, method of decoding, encoder, and decoder of an audio signal

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PL410945A PL232466B1 (pl) 2015-01-19 2015-01-19 Sposób kodowania, sposób dekodowania, koder oraz dekoder sygnału audio

Publications (2)

Publication Number Publication Date
PL410945A1 PL410945A1 (pl) 2016-08-01
PL232466B1 true PL232466B1 (pl) 2019-06-28

Family

ID=56416492

Family Applications (2)

Application Number Title Priority Date Filing Date
PL410945A PL232466B1 (pl) 2015-01-19 2015-01-19 Sposób kodowania, sposób dekodowania, koder oraz dekoder sygnału audio
PL16706257T PL3248190T3 (pl) 2015-01-19 2016-01-18 Sposób kodowania, sposób dekodowania, koder oraz dekoder sygnału audio

Family Applications After (1)

Application Number Title Priority Date Filing Date
PL16706257T PL3248190T3 (pl) 2015-01-19 2016-01-18 Sposób kodowania, sposób dekodowania, koder oraz dekoder sygnału audio

Country Status (4)

Country Link
US (1) US10734005B2 (pl)
EP (1) EP3248190B1 (pl)
PL (2) PL232466B1 (pl)
WO (1) WO2016116844A1 (pl)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017064264A1 (en) 2015-10-15 2017-04-20 Huawei Technologies Co., Ltd. Method and appratus for sinusoidal encoding and decoding
US11342933B2 (en) * 2018-12-14 2022-05-24 Advanced Micro Devices, Inc. Lossy significance compression with lossy restoration
CN113841197B (zh) * 2019-03-14 2022-12-27 博姆云360公司 具有优先级的空间感知多频带压缩系统
CN111816196A (zh) * 2020-05-30 2020-10-23 北京声连网信息科技有限公司 一种声波信息的解码方法及装置
CN120915584B (zh) * 2025-09-05 2026-02-06 杭州全程数治信息技术有限公司 一种基于智能运维平台大数据的数据采集方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4885790A (en) 1985-03-18 1989-12-05 Massachusetts Institute Of Technology Processing of acoustic waveforms
US5798693A (en) * 1995-06-07 1998-08-25 Engellenner; Thomas J. Electronic locating systems
US6266644B1 (en) * 1998-09-26 2001-07-24 Liquid Audio, Inc. Audio encoding apparatus and methods
WO2002093560A1 (en) * 2001-05-10 2002-11-21 Dolby Laboratories Licensing Corporation Improving transient performance of low bit rate audio coding systems by reducing pre-noise
ATE338999T1 (de) 2001-10-19 2006-09-15 Koninkl Philips Electronics Nv Differentielle kodierung im frequenz bereich von sinusmodell parametern
CN100559467C (zh) 2002-11-29 2009-11-11 皇家飞利浦电子股份有限公司 音频编码
US7640156B2 (en) 2003-07-18 2009-12-29 Koninklijke Philips Electronics N.V. Low bit-rate audio encoding
US7596494B2 (en) * 2003-11-26 2009-09-29 Microsoft Corporation Method and apparatus for high resolution speech reconstruction
US7536299B2 (en) * 2005-12-19 2009-05-19 Dolby Laboratories Licensing Corporation Correlating and decorrelating transforms for multiple description coding systems
KR101425354B1 (ko) 2007-08-28 2014-08-06 삼성전자주식회사 오디오 신호의 연속 정현파 신호를 인코딩하는 방법 및장치와 디코딩 방법 및 장치
US8473282B2 (en) * 2008-01-25 2013-06-25 Yamaha Corporation Sound processing device and program
US9111525B1 (en) * 2008-02-14 2015-08-18 Foundation for Research and Technology—Hellas (FORTH) Institute of Computer Science (ICS) Apparatuses, methods and systems for audio processing and transmission

Also Published As

Publication number Publication date
WO2016116844A1 (en) 2016-07-28
US20180018978A1 (en) 2018-01-18
EP3248190A1 (en) 2017-11-29
PL3248190T3 (pl) 2019-09-30
US10734005B2 (en) 2020-08-04
PL410945A1 (pl) 2016-08-01
EP3248190B1 (en) 2019-03-13

Similar Documents

Publication Publication Date Title
KR100634506B1 (ko) 저비트율 부호화/복호화 방법 및 장치
JP3715653B2 (ja) 波形データ用無損失符号化法
CN101223576B (zh) 从音频信号提取重要频谱分量的方法和设备以及使用其的低比特率音频信号编码和/或解码方法和设备
KR101019678B1 (ko) 저비트율 오디오 코딩
USRE46082E1 (en) Method and apparatus for low bit rate encoding and decoding
US10734005B2 (en) Method of encoding, method of decoding, encoder, and decoder of an audio signal using transformation of frequencies of sinusoids
KR101237413B1 (ko) 오디오 신호의 부호화 및 복호화 방법, 오디오 신호의부호화 및 복호화 장치
CA2490064A1 (en) Audio coding method and apparatus using harmonic extraction
WO2003098602A1 (en) Acoustic signal encoding method and encoding device, acoustic signal decoding method and decoding device, program, and recording medium image display device
CN1866355B (zh) 声音编码装置、声音编码方法、声音解码装置和声音解码方法
US7363216B2 (en) Method and system for parametric characterization of transient audio signals
JP2003108197A (ja) オーディオ信号復号化装置およびオーディオ信号符号化装置
JP3353868B2 (ja) 音響信号変換符号化方法および復号化方法
CN107924683B (zh) 正弦编码和解码的方法和装置
JP5303074B2 (ja) 符号化方法、復号方法、それらの装置、プログラム及び記録媒体
US7983346B2 (en) Method of and apparatus for encoding/decoding digital signal using linear quantization by sections
KR100738109B1 (ko) 입력 신호의 양자화 및 역양자화 방법과 장치, 입력신호의부호화 및 복호화 방법과 장치
KR101261524B1 (ko) 노이즈를 포함하는 오디오 신호를 저비트율로부호화/복호화하는 방법 및 이를 위한 장치
KR100300887B1 (ko) 디지털 오디오 데이터의 역방향 디코딩 방법
JP2958726B2 (ja) 反復性をもつサンプル化アナログ信号をコード化しデコードするための装置
JP2004246038A (ja) 音声楽音信号符号化方法、復号化方法、符号化装置、復号化装置、符号化プログラム、および復号化プログラム
JPH0451100A (ja) 音声情報圧縮装置
US20110153337A1 (en) Encoding apparatus and method and decoding apparatus and method of audio/voice signal processing apparatus
JP2007240902A (ja) デジタルデータ復号化装置
Reyes et al. A new perceptual entropy-based method to achieve a signal adapted wavelet tree in a low bit rate perceptual audio coder