PL207861B1 - Sposób wytwarzania kodowanych sygnałów akustycznych w telekomunikacji - Google Patents
Sposób wytwarzania kodowanych sygnałów akustycznych w telekomunikacjiInfo
- Publication number
- PL207861B1 PL207861B1 PL371898A PL37189803A PL207861B1 PL 207861 B1 PL207861 B1 PL 207861B1 PL 371898 A PL371898 A PL 371898A PL 37189803 A PL37189803 A PL 37189803A PL 207861 B1 PL207861 B1 PL 207861B1
- Authority
- PL
- Poland
- Prior art keywords
- subband signals
- spectral components
- components
- signal
- synthesized
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
Opis wynalazku
Przedmiotem wynalazku jest sposób wytwarzania kodowanych sygnałów akustycznych w telekomunikacji, otrzymywanych z systemów kodowania fonii.
Systemy kodowania fonii służą do przetwarzania sygnału akustycznego w sygnał kodowany, który nadaje się do przesyłania lub zapisania. Kodowany sygnał jest odbierany lub odtwarzany oraz dekodowany, aby otrzymać wersję oryginalnego sygnału akustycznego do wysłuchania. Percepcyjne systemy kodowania fonii kodują sygnał akustyczny w sygnał kodowany, który ma mniejszą wymaganą pojemność informacji niż oryginalny sygnał akustyczny, po czym dekodują kodowany sygnał, aby otrzymać sygnał wyjściowy, który jest percepcyjnie nieodróżnialny od pierwotnego sygnału akustycznego. Przykładowy percepcyjny system kodowania fonii jest opisany w publikacji Advanced Televionion Systems Committe (ATSC) A/52A, zatytułowanej: Revision A to Digital Audio Compression (AC-3) Standard, z 20 sierpnia 2001, nazwany Dolby Digital. Inny przykład jest opisany w publikacji Bosi'ego i in.: ISO/IEC MPEG-2 Advanced Audio Coding, J. AES, tom 45, nr 10, paź dziernik 1997, strony 789-814, nazwany Advanced Audio Coding AAC. W tych dwóch systemach kodowania, jak również w wielu innych percepcyjnych systemach kodowania, nadajnik z dzieleniem pasma stosuje zestaw filtrów analizy sygnału akustycznego, aby otrzymać składowe widmowe, które są zestawiane w grupy lub pasma częstotliwości, oraz koduje te składowe widmowe zgodnie z zasadami psychoakustycznymi, aby wytworzyć kodowany sygnał. Szerokości pasm są zwykle zmienne i współmierne z szerokościami tak zwanych pasm krytycznych ludzkiego słuchu. Odbiornik z dzieleniem pasma odbiera i dekoduje kodowany sygnał, aby odtworzyć składowe widmowe i stosuje zestaw filtrów syntezy dekodowanych sygnałów widmowych, aby otrzymać replikę pierwotnego sygnału akustycznego.
Percepcyjne systemy kodowania są używane do zmniejszenia wymaganej pojemności informacji sygnału akustycznego przy zachowaniu subiektywnej lub odbieranej jakości sygnału akustycznego tak, że kodowany sygnał akustyczny jest przesyłany kanałem telekomunikacyjnym przy zastosowaniu pasma o mniejszej szerokości lub jest zapisywany na nośniku zajmującym mniej miejsca. Wymagania dotyczące pojemności informacji są zmniejszane przez kwantowanie składowych widmowych. Kwantowanie wprowadza szum do kwantowanego sygnału, ale percepcyjne systemy kodowania fonii zwykle stosują modele psychoakustyczne do sterowania amplitudą szumu kwantowania tak, że jest on maskowany lub czyniony niesłyszalnym przez składowe widmowe w sygnale.
Znane percepcyjne sposoby kodowania działają dość dobrze w systemach kodowania fonii, które są stosowane do przesyłania lub zapisywania kodowanych sygnałów ze średnią lub dużą szybkością transmisji, ale te same sposoby nie zapewniają bardzo dobrej jakości dźwięku, gdy kodowane sygnały są ograniczane do małych szybkości transmisji. W połączeniu ze sposobami kodowania percepcyjnego stosowano inne techniki, usiłując utworzyć sygnały wysokiej jakości przy bardzo małych szybkościach transmisji.
Znana jest ze zgłoszenia patentowego USA nr US 20030187663 (A1) technika odtwarzania wielkich częstotliwości HFR. W systemie kodowania fonii, który stosuje technikę HFR, nadajnik wyklucza składowe wielkiej częstotliwości z kodowanego sygnału, a odbiornik regeneruje lub syntezuje składowe podobne do szumu dla brakujących składowych wielkiej częstotliwości. Wynikowy sygnał odbierany na wyjściu odbiornika zwykle nie jest percepcyjnie identyczny z pierwotnym sygnałem podawanym na wejście nadajnika, ale skomplikowane techniki regeneracji zapewniają sygnał wyjściowy, który jest dość dobrą aproksymacją pierwotnego sygnału wejściowego i ma znacznie lepszą jakość odbioru niż byłoby to możliwe bez stosowania tej techniki przy małych szybkościach transmisji. W zwią zku z tym wysoka jakość zwykle oznacza dużą szerokość pasma i niski poziom odbieranego szumu.
Znana jest także technika syntezy SHF, nazywana wypełnieniem przerw w widmie, opisana w zgłoszeniu patentowym USA nr US 2003233234 (Al), w której nadajnik kwantuje i koduje składowe widmowe sygnału wejściowego w taki sposób, że pasma składowych widmowych zostają pominięte w kodowanym sygnale. Pasma brakujących składowych widmowych nazywane są przerwami widma. Odbiornik syntezuje składowe widmowe, aby wypełnić nimi przerwy w widmie. Technika SHF zwykle nie zapewnia sygnału wyjściowego, który jest percepcyjnie identyczny z pierwotnym sygnałem wejściowym, ale może poprawić jakość odbioru sygnału wyjściowego w systemach, które są ograniczone do działania z kodowanymi sygnałami o małej szybkości transmisji.
Znane techniki, takie jak techniki HFR i SHF, są korzystne w wielu sytuacjach, ale nie we wszystkich. Jedna sytuacja, która jest szczególnie kłopotliwa, występuje wówczas, gdy sygnał akuPL 207 861 B styczny o gwałtownie zmieniającej się amplitudzie jest kodowany przez system, który stosuje transformacje blokowe do realizacji zestawów filtrów analizy i syntezy. W takiej sytuacji słyszalne składowe podobne do szumu mogą zostać rozmazane w pewnym okresie czasu, który odpowiada blokowi transformacji.
Do zmniejszenia słyszalnego oddziaływania szumu rozmazanego w czasie jest stosowane zmniejszanie długości bloków transformacji analizy i syntezy w tych przedziałach sygnału wejściowego, które są bardzo niestabilne. Sposób ten działa dobrze w systemach kodowania fonii, które są stosowane do przesyłania lub zapisywania kodowanych sygnałów o średniej do dużej szybkości transmisji, ale nie działa równie dobrze w systemach o mniejszych szybkościach transmisji, ponieważ zastosowanie krótszych bloków zmniejsza wzmocnienie kodowania osiągane dzięki transformacji.
Znane jest zastosowanie do zmniejszania oddziaływania omawianego szumu nadajnika do modyfikacji sygnału wejściowego tak, że szybkie zmiany amplitudy są usuwane lub zmniejszane przed zastosowaniem transformacji analizy. Odbiornik eliminuje skutki tej modyfikacji po zastosowaniu transformacji syntezy. Niestety ta technika zakłóca prawdziwe charakterystyki widmowe sygnału wejściowego, zniekształcając informacje potrzebne do skutecznego kodowania percepcyjnego, a także ponieważ nadajnik musi wykorzystywać część przesyłanego sygnału do przenoszenia charakterystyk potrzebnych odbiornikowi do eliminacji skutków modyfikacji.
Do zmniejszenia oddziaływania szumu jest stosowane także czasowe kształtowanie szumu, podczas którego nadajnik stosuje filtr prognozowania składowych widmowych, odbieranych z zestawu filtrów analizy, przenosi błędy prognozowania i prognozowane współczynniki filtrów w przesyłanym sygnale, a odbiornik stosuje odwrotny filtr prognozowania dla błędów odtwarzanych składowych widmowych. Sposób ten jest niepożądany w systemach o małych szybkościach transmisji ze względu na powiększenie sygnału potrzebne do przesyłania współczynników filtra prognozowania.
Sposób według wynalazku polega na tym, że odbiera się, za pomocą układu przetwarzającego, korzystnie układu scalonego o określonych zastosowaniach, układu scalonego ogólnego zastosowania lub procesora sterowanego programem, kodowane informacje fonii i otrzymuje się z nich sygnały podpasm reprezentujące część a nie całą zawartość widmową sygnału akustycznego, potem bada się za pomocą układu przetwarzającego sygnały podpasm dla otrzymania charakterystyki sygnału akustycznego, korzystnie charakterystyki maskowania psychoakustycznego, tonalności i/lub przebiegu czasowego, następnie wytwarza się za pomocą układu przetwarzającego syntezowane składowe widmowe, które mają charakterystykę sygnału akustycznego, integruje się za pomocą układu przetwarzającego syntezowane składowe widmowe z sygnałami podpasm, przez co wytwarza się zbiór zmodyfikowanych sygnałów podpasm oraz wytwarza się za pomocą układu przetwarzającego informacje fonii przy użyciu zestawu filtrów syntezy do zbioru zmodyfikowanych sygnałów podpasm.
Korzystnie jako charakterystykę stosuje się przebieg czasowy, wytwarza się syntezowane składowe widmowe o przebiegu czasowym, przez wytwarzanie składowych widmowych i splatanie wytwarzanych składowych widmowych z reprezentacją przebiegu czasowego w domenie częstotliwościowej.
Korzystnie przebieg czasowy otrzymuje się przez obliczanie funkcji autokorelacji przynajmniej niektórych składowych sygnałów podpasm.
Korzystnie, gdy charakterystyką jest przebieg czasowy, wytwarza się syntezowane składowe widmowe o przebiegu czasowym, przez wytwarzanie składowych widmowych i stosowanie filtra dla przynajmniej niektórych wytworzonych składowych widmowych.
Korzystnie otrzymuje się za pomocą układu przetwarzającego informacje sterujące z kodowanych informacji i dostosowuje się filtr w odpowiedzi na te informacje sterujące.
Korzystnie wytwarza się za pomocą układu przetwarzającego zbiór modyfikowanych sygnałów podpasm przez łączenie syntezowanych składowych widmowych ze składowymi sygnałów podpasm.
Korzystnie wytwarza się za pomocą układu przetwarzającego zbiór modyfikowanych sygnałów podpasm przez łączenie syntezowanych składowych widmowych z poszczególnymi składowymi sygnałów podpasm.
Korzystnie wytwarza się za pomocą układu przetwarzającego zbiór modyfikowanych sygnałów podpasm przez podstawienie syntezowanych składowych widmowych przez poszczególne składowe sygnałów podpasm.
Korzystnie otrzymuje się za pomocą układu przetwarzającego charakterystyki sygnału akustycznego przez badanie składowych jednego lub więcej sygnałów podpasm w pierwszej części widma oraz wytwarza się za pomocą układu przetwarzającego syntezowane składowe widmowe przez kopiowanie jednej lub więcej składowych sygnałów podpasm w pierwszej części widma do drugiej
PL 207 861 B części widma dla tworzenia syntezowanych sygnałów podpasm i modyfikowania kopiowanych składowych, przez co wytwarza się syntezowane składowe podpasm o charakterystyce sygnału akustycznego.
Zaletą wynalazku jest opracowanie technik, które są użyteczne w systemach kodowania fonii o małych szybkościach transmisji, które poprawiają jakość odbioru sygnałów akustycznych, wytwarzanych przez takie systemy.
Przedmiot wynalazku jest przedstawiony w przykładach wykonania na rysunku, na którym:
fig. 1 przedstawia schemat blokowy nadajnika w systemie kodowania fonii, fig. 2 - schemat blokowy odbiornika w systemie kodowania fonii oraz fig. 3 - schemat blokowy urządzenia do realizacji różnych przykładów wykonania wynalazku.
Figury 1 i 2 wyjaśniają różne przykłady wykonania wynalazku odnośnie sposobu przetwarzania sygnałów. Przetwarzanie sygnałów jest przeprowadzane na przykład tylko w odbiorniku albo zarówno w odbiorniku jak i w nadajniku.
Figura 1 przedstawia przykład wykonania nadajnika fonii z dzielonym pasmem, w którym zestaw filtrów 12 analizy odbiera z toru 11 informację fonii reprezentującą sygnał akustyczny i w odpowiedzi wytwarza sygnały podpasm częstotliwości, które reprezentują zawartość widmową sygnału akustycznego. Każdy sygnał podpasma jest przesyłany do kodera 14, który wytwarza kodowane sygnały podpasm i przesyła je do urządzenia formatowania 25, które asembluje kodowaną reprezentację w sygnał wyjściowy właściwy do wysłania lub zapisania, przesyłany do toru 17.
Figura 2 przedstawia przykład wykonania odbiornika fonii z podziałem pasmowym, w którym urządzenie deformatowania 22 odbiera z toru 21 sygnał wejściowy przenoszący kodowaną reprezentację podpasm częstotliwości, przedstawiających zawartość widmową sygnału akustycznego. Urządzenie deformatowania 22 odbiera kodowany sygnał otrzymany z sygnału wejściowego i przesyła go do dekodera 24, który dekoduje kodowane sygnały w sygnały podpasm częstotliwości. Analizator 25 bada sygnały podpasm, aby otrzymać co najmniej jeden parametr sygnału akustycznego, który reprezentuje sygnały podpasm. Wskazanie tych parametrów jest podawane na syntezator 26 składowych, który wytwarza syntezowane składowe widmowe, stosując proces, który dostosowuje się do parametrów. Integrator 27 wytwarza zbiór zmodyfikowanych sygnałów podpasm, przez integrowanie sygnałów podpasm dostarczanych przez dekoder 24 z syntezowanymi składowymi widmowymi, wytwarzanymi przez syntezator 26 składowych. W odpowiedzi na zbiór zmodyfikowanych sygnałów podpasm, zestaw filtrów 28 syntezy wytwarza w torze 29 informacje fonii reprezentujące sygnał akustyczny. W przykładzie wykonania z fig. 2 ani analizator 25 ani syntezator 26 składowych nie dostosowują przetwarzania pod wpływem informacji sterowania otrzymanych z sygnału wejściowego przez urządzenie deformatowania 22. W innych przykładach wykonania analizator 25 i/lub syntezator 26 składowych reagują na informacje sterowania otrzymane z sygnału wejściowego.
Urządzenia pokazane na fig. 1 i 2 zawierają zestawy filtrów dla trzech podpasm częstotliwości dla zachowania przejrzystości, chociaż może być zastosowanych więcej podpasm.
Zestawy filtrów analizy i syntezy są realizowane przez dowolną transformatę blokową, łącznie z dyskretną transformatą Fouriera DFT lub dyskretną transformatą cosinus DCT. W jednym systemie kodowania fonii, mającym nadajnik i odbiornik, takie jak opisane powyżej, zestaw filtrów V2. analizy i zestaw filtrów 28 syntezy są realizowane przez modyfikowaną dyskretną transformatę cosinus, znaną jako transformata TDAC z kasowaniem aliasin-gu w domenie czasowej.
Zestawy filtrów analizy, które są realizowane przez transformaty blokowe, przetwarzają blok lub przedział sygnału wejściowego w zbiór współczynników transformacji, które reprezentują zawartość widmową tego przedziału sygnału. Grupa złożona z jednego lub wielu sąsiednich współczynników transformacji reprezentuje składową widmową w danym podpaśmie częstotliwości, mającą szerokość pasma proporcjonalną do liczby współczynników w grupie. Określenie „sygnał podpasma odnosi się do grup złożonych z jednego lub więcej sąsiednich współczynników transformacji, a określenie „składowe widmowe odnosi się do współczynników transformacji.
Określenia „koder i „kodowanie stosowane w tym opisie dotyczą urządzeń i sposobów przetwarzania informacji, które są używane do reprezentowania sygnału akustycznego z kodowaną informacją o mniejszych wymaganiach dotyczących pojemności informacji niż sam sygnał akustyczny. Określenia „dekoder i „dekodowanie odnoszą się do urządzeń i sposobów przetwarzania informacji, które są stosowane do odtwarzania sygnału akustycznego z kodowanej reprezentacji. Dwoma przykładami, które dotyczą zmniejszonych wymagań dotyczących pojemności informacji, są kodowania
PL 207 861 B potrzebne do przetwarzania strumieni bitów zgodnych ze standardami kodowania Dolby Digital oraz AAC. Dla wynalazku nie jest ważny szczególny rodzaj kodowania lub dekodowania.
Różne cechy wynalazku są realizowane w odbiorniku, który nie wymaga specjalnego przetwarzania informacji z nadajnika. Wynalazek jest przeznaczony do systemów kodowania, które reprezentują sygnały akustyczne za pomocą kodowanych sygnałów o bardzo małej szybkości transmisji. Kodowana informacja w systemach o bardzo małych szybkościach transmisji zwykle przenosi sygnały podpasm, które reprezentują tylko część składowych widmowych sygnału akustycznego. Analizator 25 bada sygnały podpasm, aby otrzymać jedną lub więcej charakterystyk tej części sygnału akustycznego, która jest reprezentowana przez sygnały podpasm. Reprezentacje jednej lub więcej charakterystyk są podawane na syntezator 26 składowych i są wykorzystywane do dostosowania generowania syntezowanych składowych widmowych.
Jednym parametrem charakterystyki jest amplituda. Kodowane informacje generowane przez wiele systemów kodowania reprezentują składowe widmowe, które zostały skwantowane do żądanej długości binarnej lub do rozdzielczości kwantowania. Niewielkie składowe widmowe, które mają wartości mniejsze niż poziom reprezentowany przez najmniej znaczący bit LSB kwantowanych składowych, są pomijane w kodowanej informacji albo alternatywnie są reprezentowane w postaci, która wskazuje, że kwantowana wartość jest zerowa lub uważana za zerową. Poziom odpowiadający najmniej znaczącemu bitowi LSB kwantowanych składowych widmowych, które są przenoszone przez kodowaną informację, może być uważany za górną granicę wartości małych składowych widmowych, które są pomijane z kodowanej informacji.
Syntezator 26 składowych na przykład wykorzystuje ten poziom do ograniczania amplitudy każdej składowej, która jest syntezowana, aby zastąpić brakującą składową widmową.
Charakterystyka widmowa sygnałów podpasm, przenoszonych przez kodowaną informację, jest natychmiast dostępna z samych sygnałów podpasm. Jednak inne informacje o charakterystyce widmowej są otrzymywane przez zastosowanie filtra dla sygnałów podpasm w domenie częstotliwościowej. Filtr jest na przykład filtrem prognozowania, filtrem dolnoprzepustowym albo innego rodzaju właściwym filtrem.
Wskazanie charakterystyki widmowej lub sygnał wyjściowy filtra jest podawany na syntezator 26 składowych. W razie potrzeby jest podawane również wskazanie, jaki filtr jest używany.
Do oceny skutków maskowania psychoakustycznego składowych widmowych w sygnałach podpasm stosuje się model percepcyjny. Ze względu na to, że skutki maskowania zmieniają się wraz z częstotliwością, maskowanie zapewniane przez pierwszą składową widmową przy jednej częstotliwości niekoniecznie zapewnia taki sam poziom maskowania, jak maskowanie powodowane przez drugą składową widmową przy innej częstotliwości, nawet gdyby pierwsza i druga składowa widmowa miały taką samą amplitudę.
Wskazanie ocenionych wyników maskowania jest podawane na syntezator 26 składowych, który steruje syntezą składowych widmowych tak, że ocenione wyniki maskowania syntezowanych składowych mają wymagany związek z ocenionymi wynikami maskowania składowych widmowych w sygnałach podpasm.
Tonalność sygnałów podpasm ocenia się różnymi sposobami, obejmującymi obliczanie miary płaskości widmowej, którą jest znormalizowany iloraz średniej arytmetycznej próbek sygnałów podpasm, podzielonej przez średnią geometryczną próbek sygnałów podpasm. Tonalność ocenia się również przez analizowanie rozmieszczenia lub rozkładu składowych widmowych w sygnałach podpasm. Przykładowo sygnał podpasma uważa się za raczej tonowy niż szumowy, jeżeli występujące w niewielkiej liczbie duże składowe widmowe są przedzielone długimi przedziałami zawierającymi wiele mniejszych składowych. Inny sposób polega na zastosowaniu filtra prognozowania sygnałów podpasm, aby określić prognozowane wzmocnienie. Duże prognozowane wzmocnienie zwykle oznacza, że sygnał jest bardziej tonowy.
Wskazanie tonalności jest przesyłane do syntezatora 26 składowych, który steruje syntezą tak, że syntezowane składowe widmowe mają właściwy poziom tonalności. Realizowane jest to przez utworzenie ważonej kombinacji tonowych i szumowych składowych syntezowanych, aby osiągnąć żądany poziom tonalności.
Przebieg czasowy sygnału reprezentowanego przez sygnały podpasm jest oceniany bezpośrednio na podstawie sygnałów podpasm. Podstawy techniczne przykładu wykonania estymatora przebiegu czasowego wyjaśnia się na przykładzie systemu liniowego, reprezentowanego przez równanie 1.
PL 207 861 B y(t) = h(t) · x(t) (1) gdzie y(t) - sygnał z ocenianym przebiegiem czasowym, h(t) - przebieg czasowy sygnału y(t), znak · • oznacza mnożenie oraz x(t) - czasowo płaska wersja sygnału y(t).
Równanie to można przedstawić w postaci:
Y[k] = H[k] * X[k] (2) gdzie Y[k] - reprezentacja sygnału y(t) w domenie częstotliwościowej,
H[k] - reprezentacja h(t) w domenie częstotliwościowej, znak * oznacza splot oraz
X[k] - reprezentacja sygnału x(t) w domenie częstotliwościowej.
Reprezentacja Y[k] w domenie częstotliwościowej odpowiada co najmniej jednemu z sygnałów podpasm otrzymywanych przez dekoder 24. Analizator 25 otrzymuje ocenę reprezentacji H[k] przebiegu czasowego h(t) w domenie częstotliwościowej przez rozwiązanie układu równań otrzymanych z modelu autoregresywnej średniej ruchomej ARMA dla Y[k] i X[k].
Reprezentacja Y[k] w domenie częstotliwościowej jest uporządkowana w blokach współczynników transformacji. Każdy blok współczynników transformacji wyraża krótkotrwałe widmo sygnału y(t). Reprezentacja X[k] w domenie częstotliwościowej jest również uporządkowana w blokach. Każdy blok współczynników w reprezentacji X[k] w domenie częstotliwościowej reprezentuje blok próbek czasowo płaskiego sygnału x(t), który przyjmuje się za stacjonarny w szerokim sensie. Przyjmuje się również, że współczynniki w każdym bloku reprezentacji X[k] są rozłożone niezależnie. Przy przyjęciu takich założeń, sygnały wyraża się poprzez model ARMA następująco:
Y[k]+ZaiY[k -1]= £bqX[k-q] 3 l=1 q=0 gdzie L - długość autoregresywnej części modelu ARMA oraz
Q - długość ruchomej części średniej modelu ARMA.
Równanie 3 można rozwiązać dla al i bq przez rozwiązanie autokorelacji Y[k]:
E{k]· Y[k - m]}=;Ea1E{Y[k-l]-Y[k-m]}+ £bqE{X[k-q]-Y[k-m] 4 l =1 q =0 gdzie E{...} - funkcja oczekiwanej wartości. Równanie 4 można zapisać w następującej postaci:
RYY [m]=-Z a1RYY [m-l]+ Σ bqR l=1 q= 0
[m-q] q YY gdzie Ryy[n] - autokorelacja y[n] oraz
Rxy[k] - korelacja krzyżowa Y{k] i X[k].
Jeśli przyjmiemy, że system liniowy reprezentowany przez H[k] jest tylko autoregresywny, wówczas drugi czynnik po prawej stronie równania 5 można zignorować. Równanie 5 można wtedy zapisać w następującej postaci:
RYY [m]=-Z a1RYY [m -1] dla m > 0 (6) YY l =1 1 YY która reprezentuje układ L równań liniowych rozwiązywanych w celu otrzymania L współczynników ai.
Po takim wyjaśnieniu można opisać przykład wykonania estymatora przebiegu czasowego, który stosuje techniki w domenie częstotliwościowej. Estymator przebiegu czasowego odbiera reprezentację Y[k] w domenie częstotliwościowej jednego lub wielu sygnałów podpasm y(t) i oblicza sekwencję autokorelacji RYY[m] dla -L < m < L. Wartości te są stosowane do tworzenia układu równań liniowych, które rozwiązuje się w celu otrzymania współczynników a, reprezentujących bieguny liniowego filtra wszechbiegunowego FR, przedstawionego poniżej w równaniu 7.
FR(z) = —1+Σ a1 z-l l=1
PL 207 861 B
Filtr stosuje się do reprezentacji w domenie częstotliwościowej dowolnego, czasowo płaskiego sygnału, takiego jak sygnał podobny do szumu, aby otrzymać reprezentację w domenie częstotliwościowej wersji tego czasowo płaskiego sygnału, mającej przebieg czasowy zasadniczo równy przebiegowi czasowemu sygnału y(t).
Opis biegunów filtra FR jest podawany na syntezator 26 składowych, który stosuje ten filtr do generowania syntezowanych składowych widmowych, reprezentujących sygnał o żądanym przebiegu czasowym.
Syntezator 26 składowych generuje syntezowane składowe widmowe wieloma różnymi sposobami. Dwa sposoby zostaną opisane poniżej. Przykładowo mogą być wybierane różne sposoby w odpowiedzi na charakterystyki otrzymane z sygnałów podpasm lub w funkcji częstotliwości.
Pierwszy sposób polega na generowaniu sygnału podobnego do szumu, a do generowania sygnałów podobnych do szumów stosuje się zasadniczo dowolne z wielu różnych technik w domenie czasowej i w domenie częstotliwościowej.
Drugi sposób wykorzystuje technikę w domenie częstotliwościowej, nazywaną translacją widmową lub replikacja widmową, która kopiuje składowe widmowe z jednego lub wielu podpasm częstotliwości. Składowe widmowe o mniejszych częstotliwościach są zwykle kopiowane do większych częstotliwości, ponieważ składowe o większych częstotliwościach są często związane w pewien sposób ze składowymi o mniejszych częstotliwościach. Składowe widmowe mogą być kopiowane do większych lub mniejszych częstotliwości. W razie potrzeby szum dodaje się lub miesza się z przemieszczonymi składowymi, a amplituda jest modyfikowana zgodnie z życzeniem. Korzystnie przeprowadza się konieczne regulacje, aby wyeliminować lub przynajmniej zmniejszyć nieciągłości w fazie syntezowanych składowych.
Synteza składowych widmowych jest sterowana przez informacje odbierane z analizatora 25 tak, że syntezowane składowe mają jedną lub więcej charakterystyk otrzymywanych z sygnałów podpasm.
Syntezowane składowe widmowe są integrowane z widmowymi składowymi sygnału podpasm wielu różnymi sposobami. Jeden sposób stosuje syntezowane składowe jako pewną postać dodawanego sygnału nieokresowego przy łączeniu składowych syntezowanych i składowych podpasm, reprezentujących odpowiednie częstotliwości. Inny sposób polega na podstawianiu co najmniej jednej syntezowanej składowej za wybrane składowe widmowe występujące w sygnałach podpasm. Jeszcze inny sposób polega na łączeniu syntezowanych składowych ze składowymi sygnałów podpasm, aby reprezentować składowe widmowe, które nie występują w sygnałach podpasm. Te i inne sposoby są stosowane w różnych kombinacjach.
Opisane powyżej przykłady wykonania wynalazku są realizowane w odbiorniku bez wymagania, aby nadajnik dostarczał jakiekolwiek informacje sterujące poza tymi, które są potrzebne odbiornikowi do odbierania i dekodowania sygnałów podpasm bez cech wynalazku. Te cechy wynalazku są uwypuklane, jeżeli są zapewnione dodatkowe informacje sterujące, co omówiono poniżej.
Stopień zastosowania kształtowania czasowego syntezowanych składowych jest dostosowywany przez informację sterującą, dostarczaną w kodowanej informacji. Jeden sposób polega na użyciu parametru β, co przedstawiono w następującym równaniu.
1
FR(z)=—L- dla 0 < β < 1 (8)
1+Σ a1 eiz-i i=l
Filtr nie powoduje żadnego kształtowania czasowego, gdy β = 0. Gdy β = 1, filtr zapewnia taki stopień kształtowania czasowego, że korelacja pomiędzy przebiegiem czasowym syntezowanych składowych a przebiegiem czasowym sygnałów podpasm jest maksymalna. Inne wartości β zapewniają pośrednie poziomy kształtowania czasowego.
W jednym przykładzie wykonania nadajnik wytwarza informację sterującą, która umożliwia odbiornikowi ustawienie β na jedną z ośmiu wartości.
Nadajnik wytwarza także inne informacje sterujące, które są stosowane przez odbiornik do dostosowania procesu syntezy składowych w żądany sposób.
Cechy wynalazku są realizowane wieloma różnymi sposobami, obejmującymi oprogramowanie w uniwersalnym systemie komputerowym lub w innym urządzeniu, które zawiera bardziej wyspecjalizowane części składowe, takie jak układ procesora DSP sygnałów cyfrowych, sprzężony z częściami składowymi podobnymi do stosowanych w uniwersalnym układzie komputerowym.
PL 207 861 B
Figura 3 przedstawia schemat blokowy urządzenia 70 do realizacji różnych cech wynalazku w nadajniku lub odbiorniku. Procesor 72 sygnałów cyfrowych dostarcza moc obliczeniową. Pamięć 73 o dostępie swobodnym RAM jest stosowana przez procesor 72 sygnałów cyfrowych do przetwarzania sygnałów. Pamięć 74 stała ROM służy do przechowywania programów koniecznych do działania urządzenia 70 i do realizacji cech wynalazku. Zespół sterowania 75 wejścia/wyjścia reprezentuje obwód interfejsowy do odbioru i wysyłania sygnałów poprzez kanały telekomunikacyjne 76, 77. W zespole sterowania 75 wejścia/wyjścia są zawarte przetworniki analogowo-cyfrowe i przetworniki cyfrowoanalogowe konieczne do odbioru i/lub wysyłania analogowych sygnałów akustycznych. W przedstawionym przykładzie wykonania wszystkie ważniejsze elementy składowe systemu są dołączone do magistrali 71, która reprezentuje więcej niż jedną magistralę fizyczną, jednak do realizacji wynalazku nie jest wymagana architektura szynowa.
W przykładach wykonania realizowanych w systemie komputerowym ogólnego przeznaczenia są zawarte dodatkowe elementy składowe do sprzęgania z urządzeniami takimi, jak klawiatura lub mysz i monitor, oraz do sterowania urządzeniem pamięciowym, mającym nośnik pamięci, taki jak taśma lub dysk magnetyczny albo nośnik optyczny. Nośnik pamięci jest stosowany do zapisywania programów złożonych z poleceń dla systemów operacyjnych, programów użytkowych i aplikacji oraz może obejmować przykłady wykonania programów, które zapewniają różne cechy wynalazku.
Funkcje potrzebne do praktycznej realizacji różnych cech wynalazku są wykonywane przez elementy składowe, które są realizowane wieloma różnymi sposobami, obejmującymi dyskretne elementy logiczne, jeden lub więcej układów scalonych ASIC do określonych zastosowań i/lub procesorów sterowanych programem.
Realizacja wynalazku w zakresie oprogramowania jest przeprowadzana za pomocą różnych środków odczytywalnych komputerowo, obejmujących łącza telekomunikacyjne z pasmem podstawowym lub modulowane w całym widmie od częstotliwości ultradźwiękowych do częstotliwości ultrafioletowych, albo za pomocą nośników pamięci, obejmujących nośniki, które przenoszą informacje przy zastosowaniu magnetycznej lub optycznej techniki zapisu, łącznie z taśmami magnetycznymi, dyskami magnetycznymi i dyskami optycznymi. Różne cechy wynalazku są realizowane w różnych elementach urządzenia 70 w postaci systemu komputerowego przez układ przetwarzający, taki jak układy scalone do określonych zastosowań, układy scalone ogólnego zastosowania, mikroprocesory sterowane programami zapisanymi w różnych postaciach pamięci stałych lub pamięci o dostępie swobodnym.
Claims (9)
1. Sposób wytwarzania kodowanych sygnałów akustycznych w telekomunikacji, znamienny tym, że odbiera się, za pomocą układu przetwarzającego, korzystnie układu scalonego o określonych zastosowaniach, układu scalonego ogólnego zastosowania lub procesora sterowanego programem, kodowane informacje fonii i otrzymuje się z nich sygnały podpasm reprezentujące część a nie całą zawartość widmową sygnału akustycznego, potem bada się za pomocą układu przetwarzającego sygnały podpasm dla otrzymania charakterystyki sygnału akustycznego, korzystnie charakterystyki maskowania psychoakustycznego, tonalności i/lub przebiegu czasowego, następnie wytwarza się za pomocą układu przetwarzającego syntezowane składowe widmowe, które mają charakterystykę sygnału akustycznego, integruje się za pomocą układu przetwarzającego syntezowane składowe widmowe z sygnałami podpasm, przez co wytwarza się zbiór zmodyfikowanych sygnałów podpasm oraz wytwarza się za pomocą układu przetwarzającego informacje fonii przy użyciu zestawu filtrów syntezy do zbioru zmodyfikowanych sygnałów podpasm.
2. Sposób według zastrz. 1, znamienny tym, że gdy jako charakterystykę stosuje się przebieg czasowy, wytwarza się syntezowane składowe widmowe o przebiegu czasowym, przez wytwarzanie składowych widmowych i splatanie wytwarzanych składowych widmowych z reprezentacją przebiegu czasowego w domenie częstotliwościowej.
3. Sposób według zastrz. 2, znamienny tym, że przebieg czasowy otrzymuje się przez obliczanie funkcji autokorelacji przynajmniej niektórych składowych sygnałów podpasm.
4. Sposób według zastrz. 1, znamienny tym, że gdy charakterystyką jest przebieg czasowy, wytwarza się syntezowane składowe widmowe o przebiegu czasowym, przez wytwarzanie składoPL 207 861 B wych widmowych i stosowanie filtra dla przynajmniej niektórych wytworzonych składowych widmowych.
5. Sposób według zastrz. 4, znamienny tym, że otrzymuje się za pomocą układu przetwarzającego informacje sterujące z kodowanych informacji i dostosowuje się filtr w odpowiedzi na te informacje sterujące.
6. Sposób według zastrz. 1 albo 2, albo 3, albo 4, albo 5, znamienny tym, że wytwarza się za pomocą układu przetwarzającego zbiór modyfikowanych sygnałów podpasm przez łączenie syntezowanych składowych widmowych ze składowymi sygnałów podpasm.
7. Sposób według zastrz. 1 albo 2, albo 3, albo 4, albo 5, znamienny tym, że wytwarza się za pomocą układu przetwarzającego zbiór modyfikowanych sygnałów podpasm przez łączenie syntezowanych składowych widmowych z poszczególnymi składowymi sygnałów podpasm.
8. Sposób według zastrz. 1 albo 2, albo 3, albo 4, albo 5, znamienny tym, że wytwarza się za pomocą układu przetwarzającego zbiór modyfikowanych sygnałów podpasm przez podstawienie syntezowanych składowych widmowych przez poszczególne składowe sygnałów podpasm.
9. Sposób według zastrz. 1 albo 2, albo 3, albo 4, albo 5, znamienny tym, że otrzymuje się za pomocą układu przetwarzającego charakterystyki sygnału akustycznego przez badanie składowych jednego lub więcej sygnałów podpasm w pierwszej części widma oraz wytwarza się za pomocą układu przetwarzającego syntezowane składowe widmowe przez kopiowanie jednej lub więcej składowych sygnałów podpasm w pierwszej części widma do drugiej części widma dla tworzenia syntezowanych sygnałów podpasm i modyfikowania kopiowanych składowych, przez co wytwarza się syntezowane składowe podpasm o charakterystyce sygnału akustycznego.
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US10/174,493 US7447631B2 (en) | 2002-06-17 | 2002-06-17 | Audio coding system using spectral hole filling |
| US10/238,047 US7337118B2 (en) | 2002-06-17 | 2002-09-06 | Audio coding system using characteristics of a decoded signal to adapt synthesized spectral components |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| PL371898A1 PL371898A1 (pl) | 2005-07-11 |
| PL207861B1 true PL207861B1 (pl) | 2011-02-28 |
Family
ID=29738991
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| PL371898A PL207861B1 (pl) | 2002-06-17 | 2003-06-09 | Sposób wytwarzania kodowanych sygnałów akustycznych w telekomunikacji |
Country Status (10)
| Country | Link |
|---|---|
| US (1) | US20080140405A1 (pl) |
| EP (1) | EP1514263B1 (pl) |
| JP (1) | JP2005530206A (pl) |
| CN (1) | CN1310210C (pl) |
| AU (1) | AU2003243441C1 (pl) |
| CA (1) | CA2489443C (pl) |
| MX (1) | MXPA04012540A (pl) |
| PL (1) | PL207861B1 (pl) |
| TW (1) | TWI288915B (pl) |
| WO (1) | WO2003107329A1 (pl) |
Families Citing this family (22)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US7555434B2 (en) | 2002-07-19 | 2009-06-30 | Nec Corporation | Audio decoding device, decoding method, and program |
| US7774707B2 (en) * | 2004-12-01 | 2010-08-10 | Creative Technology Ltd | Method and apparatus for enabling a user to amend an audio file |
| US8392176B2 (en) * | 2006-04-10 | 2013-03-05 | Qualcomm Incorporated | Processing of excitation in audio coding and decoding |
| US8060363B2 (en) * | 2007-02-13 | 2011-11-15 | Nokia Corporation | Audio signal encoding |
| US8428957B2 (en) | 2007-08-24 | 2013-04-23 | Qualcomm Incorporated | Spectral noise shaping in audio coding based on spectral dynamics in frequency sub-bands |
| DK2186089T3 (en) | 2007-08-27 | 2019-01-07 | Ericsson Telefon Ab L M | Method and apparatus for perceptual spectral decoding of an audio signal including filling in spectral holes |
| RU2621965C2 (ru) * | 2008-07-11 | 2017-06-08 | Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. | Передатчик сигнала активации с деформацией по времени, кодер звукового сигнала, способ преобразования сигнала активации с деформацией по времени, способ кодирования звукового сигнала и компьютерные программы |
| MY154452A (en) | 2008-07-11 | 2015-06-15 | Fraunhofer Ges Forschung | An apparatus and a method for decoding an encoded audio signal |
| EP2239732A1 (en) | 2009-04-09 | 2010-10-13 | Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. | Apparatus and method for generating a synthesis audio signal and for encoding an audio signal |
| RU2452044C1 (ru) | 2009-04-02 | 2012-05-27 | Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. | Устройство, способ и носитель с программным кодом для генерирования представления сигнала с расширенным диапазоном частот на основе представления входного сигнала с использованием сочетания гармонического расширения диапазона частот и негармонического расширения диапазона частот |
| CO6440537A2 (es) | 2009-04-09 | 2012-05-15 | Fraunhofer Ges Forschung | Aparato y metodo para generar una señal de audio de sintesis y para codificar una señal de audio |
| CN101556799B (zh) | 2009-05-14 | 2013-08-28 | 华为技术有限公司 | 一种音频解码方法和音频解码器 |
| CN102576531B (zh) * | 2009-10-12 | 2015-01-21 | 诺基亚公司 | 用于处理多信道音频信号的方法、设备 |
| CA3107943C (en) | 2010-01-19 | 2022-09-06 | Dolby International Ab | Improved subband block based harmonic transposition |
| US12002476B2 (en) | 2010-07-19 | 2024-06-04 | Dolby International Ab | Processing of audio signals during high frequency reconstruction |
| US8924222B2 (en) | 2010-07-30 | 2014-12-30 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for coding of harmonic signals |
| US9208792B2 (en) * | 2010-08-17 | 2015-12-08 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for noise injection |
| EP3288033B1 (en) * | 2012-02-23 | 2019-04-10 | Dolby International AB | Methods and systems for efficient recovery of high frequency audio content |
| JP6200034B2 (ja) * | 2012-04-27 | 2017-09-20 | 株式会社Nttドコモ | 音声復号装置 |
| US9607602B2 (en) | 2013-09-06 | 2017-03-28 | Apple Inc. | ANC system with SPL-controlled output |
| US10090005B2 (en) * | 2016-03-10 | 2018-10-02 | Aspinity, Inc. | Analog voice activity detection |
| CN113053351B (zh) * | 2021-03-14 | 2024-01-30 | 西北工业大学 | 一种基于听觉感知的飞机舱内噪声合成方法 |
Family Cites Families (10)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| EP0551705A3 (en) * | 1992-01-15 | 1993-08-18 | Ericsson Ge Mobile Communications Inc. | Method for subbandcoding using synthetic filler signals for non transmitted subbands |
| JP2563719B2 (ja) * | 1992-03-11 | 1996-12-18 | 技術研究組合医療福祉機器研究所 | 音声加工装置と補聴器 |
| US5623577A (en) * | 1993-07-16 | 1997-04-22 | Dolby Laboratories Licensing Corporation | Computationally efficient adaptive bit allocation for encoding method and apparatus with allowance for decoder spectral distortions |
| JPH07225598A (ja) * | 1993-09-22 | 1995-08-22 | Massachusetts Inst Of Technol <Mit> | 動的に決定された臨界帯域を用いる音響コード化の方法および装置 |
| JP3254953B2 (ja) * | 1995-02-17 | 2002-02-12 | 日本ビクター株式会社 | 音声高能率符号化装置 |
| EP0878790A1 (en) * | 1997-05-15 | 1998-11-18 | Hewlett-Packard Company | Voice coding system and method |
| SE512719C2 (sv) * | 1997-06-10 | 2000-05-02 | Lars Gustaf Liljeryd | En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion |
| SE9903553D0 (sv) * | 1999-01-27 | 1999-10-01 | Lars Liljeryd | Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL) |
| SE0001926D0 (sv) * | 2000-05-23 | 2000-05-23 | Lars Liljeryd | Improved spectral translation/folding in the subband domain |
| JP3538122B2 (ja) * | 2000-06-14 | 2004-06-14 | 株式会社ケンウッド | 周波数補間装置、周波数補間方法及び記録媒体 |
-
2003
- 2003-05-13 TW TW092112969A patent/TWI288915B/zh not_active IP Right Cessation
- 2003-06-09 EP EP03760242A patent/EP1514263B1/en not_active Expired - Lifetime
- 2003-06-09 CA CA2489443A patent/CA2489443C/en not_active Expired - Lifetime
- 2003-06-09 JP JP2004514061A patent/JP2005530206A/ja active Pending
- 2003-06-09 MX MXPA04012540A patent/MXPA04012540A/es active IP Right Grant
- 2003-06-09 CN CNB038139693A patent/CN1310210C/zh not_active Expired - Lifetime
- 2003-06-09 AU AU2003243441A patent/AU2003243441C1/en not_active Expired
- 2003-06-09 WO PCT/US2003/018065 patent/WO2003107329A1/en not_active Ceased
- 2003-06-09 PL PL371898A patent/PL207861B1/pl unknown
-
2007
- 2007-07-27 US US11/881,674 patent/US20080140405A1/en not_active Abandoned
Also Published As
| Publication number | Publication date |
|---|---|
| EP1514263A1 (en) | 2005-03-16 |
| MXPA04012540A (es) | 2005-04-28 |
| TW200400487A (en) | 2004-01-01 |
| AU2003243441C1 (en) | 2009-07-30 |
| PL371898A1 (pl) | 2005-07-11 |
| WO2003107329A1 (en) | 2003-12-24 |
| JP2005530206A (ja) | 2005-10-06 |
| AU2003243441A1 (en) | 2003-12-31 |
| CN1310210C (zh) | 2007-04-11 |
| US20080140405A1 (en) | 2008-06-12 |
| CA2489443A1 (en) | 2003-12-24 |
| CA2489443C (en) | 2012-04-10 |
| TWI288915B (en) | 2007-10-21 |
| AU2003243441B2 (en) | 2008-12-11 |
| CN1662960A (zh) | 2005-08-31 |
| EP1514263B1 (en) | 2010-06-02 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CA2736065C (en) | Audio coding system using characteristics of a decoded signal to adapt synthesized spectral components | |
| PL207861B1 (pl) | Sposób wytwarzania kodowanych sygnałów akustycznych w telekomunikacji | |
| KR100550399B1 (ko) | 다중 오디오 채널을 저 비트율로 부호화 및 복호화하기위한 장치와 그 방법 | |
| PL207862B1 (pl) | Nadajnik kodowania fonii i odbiornik dekodowania fonii, zwłaszcza dla cyfrowych systemów kodowania fonii w telekomunikacji | |
| Spanias et al. | Analysis of the MPEG-1 Layer III (MP3) algorithm using MATLAB | |
| HK1146146B (en) | System for audio decoding with filling of spectral holes | |
| HK1146145B (en) | Audio decoding with filling of spectral holes | |
| HK1070728B (en) | Audio coding system using characteristics of a decoded signal to adapt synthesized spectral components | |
| IL165648A (en) | Audio coding system using characteristics of a decoded signal to adapt synthesized spectral components |