UA123426C2

UA123426C2 - Зворотно сумісна інтеграція методів високочастотного відновлення для аудіосигналів

Info

Publication number: UA123426C2
Application number: UAA202005476A
Authority: UA
Inventors: Крістофер Черлінґ; Кристофер ЧЕРЛИНГ; Ларс Віллемоєс; Ларс ВИЛЛЕМОЕС; Гейко Пурнгаґен; Гейко Пурнгаген; Пер Екстранд; Пер ЭКСТРАНД
Original assignee: Долбі Інтернешнл Аб; Долби Интернешнл Аб
Priority date: 2018-01-26
Filing date: 2019-01-28
Publication date: 2021-03-31
Also published as: CN120808802A; TWI895201B; US20240029747A1; AU2021240113A1; CN113936672B; CN120808800A; AR127544A2; PH12020500603A1; US20250118312A1; CA3114382A1; AU2025201746B2; AR127540A2; KR20250022256A; TWI702594B; IL309769B2; KR20250022255A; CN113990331A; MX2023013291A; CN120808799A; US20230050996A1

Abstract

Розкритий спосіб декодування закодованого бітового потоку аудіо. Спосіб включає прийом закодованого бітового потоку аудіо і декодування даних аудіо, щоб згенерувати декодований аудіосигнал в смузі низьких частот. Спосіб додатково включає витягання метаданих високочастотного відновлення і фільтрацію декодованого аудіосигналу в смузі низьких частот за допомогою банку фільтрів аналізу, щоб згенерувати відфільтрований аудіосигнал в смузі низьких частот. Спосіб також включає витягання мітки, яка вказує, чи повинне виконуватися спектральне перенесення або гармонічна транспозиція відносно даних аудіо, і регенерацію частини смуги високих частот аудіосигналу з використанням відфільтрованого аудіосигналу в смузі низьких частот і метаданих високочастотного відновлення відповідно до мітки.

Description

Перехресне посилання на пов'язану заявку

Дана заявка заявляє пріоритет по наступній пріоритетній заявці: попередня заявка США 62/622,205, подана 26 січня 2018, яка включена в цей документ за допомогою посилання.

Галузь техніки

Варіанти здійснення стосуються обробки аудіосигналів і, більш конкретно, кодування, декодування або транскодування бітових потоків аудіо з керуючими даними, які специфікують, що або базова форма високочастотного відновлення ("НЕК"), або розширена форма НЕК повинна виконуватися відносно даних аудіо.

Попередній рівень техніки

Звичайний бітовий потік аудіо включає як дані аудіо (наприклад, закодовані дані аудіо), які вказують один або декілька каналів аудіоконтента, так і метадані, які вказують щонайменше одну характеристику даних аудіо або аудіоконтента. Одним добре відомим форматом для генерування закодованого бітового потоку аудіо є формат розширеного кодування аудіо (ААС)

МРЕС-4, описаний в стандарті ІЗОЛЕС 14496-3:2009 МРЕбС. У стандарті МРЕС-4, ААС означає "розширене кодування аудіо", і НЕ-ААС означає "високоефективне розширене кодування аудіо".

Стандарт МРЕС-4 ААС визначає декілька профілів аудіо, які визначають, які об'єкти і інструменти кодування представлені в сумісному кодері або декодері. Три з цих профілю аудіо являють собою (1) профіль ААС, (2) профіль НЕ-ААС і (3) профіль НЕ-ААС м2. Профіль ААС включає тип об'єкта ААС низької складності (або "ААС-І С"). Об'єкт ААС-ІЇ С є еквівалентом профілю МРЕС-2 ААС низької складності, з деякими настройками, і не включає ні тип об'єкта реплікації спектрального діапазону ("ЗВ"), ні тип об'єкта параметричного стерео ("РБ").

Профіль НЕ-ААС являє собою супернабір профілю ААС і додатково включає тип об'єкта 5ВЕ.

Профіль НЕ-ААС м2 являє собою супернабір профілю НЕ-ААС і додатково включає тип об'єкта

РБ.

Тип об'єкта ЗВЕК містить інструмент реплікації спектрального діапазону, який є важливим інструментом кодування високочастотного відновлення ("НЕК"), який значно поліпшує ефективність стиснення перцепційних аудіокодеків. ВК відновлює високочастотні компоненти аудіосигналу на стороні приймача (наприклад, в декодері). Таким чином, кодер повинен тільки закодувати і передати низькочастотні компоненти, забезпечуючи підвищену якість аудіо на низьких швидкостях передачі даних. 5ВК основана на реплікації послідовностей гармонік, які раніше відсікли для зменшення швидкості передачі даних, з доступного сигналу обмеженої ширини смуги і керуючих даних, отриманих з кодера. Відношення між тональними і шумоподібними компонентами підтримуються адаптивною зворотною фільтрацій і опційним додаванням шуму і синусоїд. У стандарті МРЕС-4 ААС, інструмент ЗВК виконує спектральну вставку латки (раїспіпу) (яка також називається лінійним перенесенням або спектральним перенесенням), коли деяке число послідовних піддіапазонів квадратурних дзеркальних фільтрів (ОМЕ) копіюються (або "вставляються у вигляді латки") з переданої частини смуги низьких частот аудіосигналу в частину смуги високих частот аудіосигналу, що генерується в декодері.

Спектральна вставка латки або лінійне перенесення можуть не бути ідеальними для деяких типів аудіо, таких як музичний контент з відносно низькими частотами переходу. Тому, необхідні методи для поліпшення реплікації спектрального діапазону.

Короткий опис варіантів здійснення винаходу

Розкритий перший клас варіантів здійснення, який стосується способу декодування закодованого бітового потоку аудіо. Спосіб включає прийом закодованого бітового потоку аудіо і декодування даних аудіо, щоб згенерувати декодований аудіосигнал в смузі низьких частот.

Спосіб додатково включає витягання метаданих високочастотного відновлення і фільтрацію декодованого аудіосигналу в смузі низьких частот банком фільтрів аналізу, щоб згенерувати відфільтрований аудіосигнал в смузі низьких частот. Спосіб додатково включає витягання мітки, яка вказує, чи потрібно виконати спектральне перенесення або гармонічну транспозицію відносно даних аудіо, і регенерацію частини смуги високих частот аудіосигналу з використанням відфільтрованого аудіосигналу в смузі низьких частот і метаданих високочастотного відновлення відповідно до мітки. Нарешті, спосіб включає комбінування відфільтрованого аудіосигналу в смузі низьких частот і регенерованої частини смуги високих частот для формування широкосмугового аудіосигналу.

Другий клас варіантів здійснення стосується декодеру аудіо для декодування закодованого бітового потоку аудіо. Декодер включає вхідний інтерфейс для прийому закодованого бітового потоку аудіо, де закодований бітовий потік аудіо включає дані аудіо, що представляють частину смуги низьких частот аудіосигналу, і базовий декодер для декодування даних аудіо, щоб згенерувати декодований аудіосигнал в смузі низьких частот. Декодер також включає 60 демультиплексор для витягання із закодованого бітового потоку аудіо метаданих високочастотного відновлення, де метадані високочастотного відновлення включають робочі параметри для процесу високочастотного відновлення, який лінійно переносить деяку кількість послідовних піддіапазонів з частини смуги низьких частот аудіосигналу в частину смуги високих частот аудіосигналу, і банк фільтрів аналізу для фільтрації декодованого аудіосигналу в смузі низьких частот, щоб згенерувати відфільтрований аудіосигнал в смузі низьких частот. Декодер додатково включає демультиплексор для витягання із закодованого бітового потоку аудіо мітки, яка вказує, чи потрібно виконувати лінійне перенесення або гармонічну транспозицію відносно даних аудіо, і високочастотний регенератор для регенерації частини смуги високих частот аудіосигналу з використанням відфільтрованого аудіосигналу в смузі низьких частот і метаданих високочастотного відновлення відповідно до мітки. Нарешті, декодер включає банк фільтрів синтезу для комбінування відфільтрованого аудіосигналу в смузі низьких частот і регенерованій частині смуги високих частот для формування широкосмугового аудіосигналу.

Інші класи варіантів здійснення стосуються кодування і транскодування бітових потоків аудіо, що містять метадані, які ідентифікують, чи потрібно виконувати обробку розширеної реплікації спектрального діапазону (езвк).

Короткий опис креслень

Фіг. 1 являє собою блок-схему варіанту здійснення системи, яка може бути сконфігурована, щоб виконувати варіант здійснення способу, що відповідає винаходу.

Фіг. 2 являє собою блок-схему кодера, який є варіантом здійснення модуля обробки аудіо, що відповідає винаходу.

Фіг. З являє собою блок-схему системи, що включає декодер, який є варіантом здійснення модуля обробки аудіо, що відповідає винаходу, і опційно також пост-процесор, зв'язаний з ним.

Фіг. 4 являє собою блок-схему декодера, який є варіантом здійснення модуля обробки аудіо, що відповідає винаходу.

Фіг. 5 являє собою блок-схему декодера, який є іншим варіантом здійснення модуля обробки аудіо, що відповідає винаходу.

Фіг. б являє собою блок-схему іншого варіанту здійснення модуля обробки аудіо, що відповідає винаходу.

Фіг. 7 являє собою діаграму блока бітового потоку МРЕС-4 ААС, що включає сегменти, на які він розділений.

Позначення і термінологія

Всюди в даному розкритті, в тому числі в формулі винаходу, вираз виконання операції "на" сигналі або даних (наприклад, фільтрація, масштабування, перетворення або застосування посилення відносно сигналу або даних) використовується в широкому значенні для позначення виконання операції безпосередньо на сигналі або даних або на обробленій версії сигналу або даних (наприклад, на версії сигналу, який піддався попередній фільтрації або попередній обробці до виконання на ньому операції).

Всюди в даному розкритті, включаючи формулу винаходу, вираз "модуль обробки аудіо" або "процесор аудіо" використовується в широкому значенні для позначення системи, пристрою або приладу, сконфігурованого обробки даних аудіо. Приклади модулів обробки аудіо включають, але без обмеження, кодери, транскодери, декодери, кодеки, системи попередньої обробки, системи пост-обробки і систем обробки бітових потоків (що іноді згадуються як інструменти обробки бітових потоків). Віртуально вся споживча електроніка, така як мобільні телефони, телевізори, ноутбуки і планшети, містить модуль обробки аудіо або процесор аудіо.

Всюди в даному розкритті, включаючи формулу винаходу, термін "зв'язує" або "зв'язаний" використовується в широкому значенні для позначення прямого або опосередкованого з'єднання. Таким чином, якщо перший пристрій зв'язаний з другим пристроєм, це з'єднання може здійснюватися як пряме з'єднання або опосередковане з'єднання через інші пристроїв і з'єднання. Більше того, компоненти, інтегровані в інші компоненти або з іншими компонентами, також зв'язані один з одним.

Детальний опис варіантів здійснення винаходу

Під стандартом МРЕС-4 ДАС мають на увазі, що закодований бітовий потік МРЕС-4 ААС включає метадані, які вказують кожний тип обробки високочастотного відновлення ("НЕК"), який повинен застосовуватися (якщо який-небудь повинен застосовуватися) декодером, щоб декодувати аудіоконтент бітового потоку, і/або який керує такою обробкою НЕРК і/або вказує щонайменше одну характеристику або параметр щонайменше одного інструмента МРЕС-4

ААС, що використовується для декодування аудіоконтента бітового потоку. Тут використовується вираз "метадані 5ВЕК" для позначення метаданих типу, описаного або згаданого в стандарті МРЕС-4 ААС для застосування з реплікацією спектрального діапазону бо (ЗВЕ"). Як зрозуміло фахівцеві в даній галузі техніки, ЗВЕ являє собою форму НЕК.

ЗВК переважно використовується як система з подвійною швидкістю, при цьому основний кодек працює на половині вихідної частоти дискретизації, в той час як ЗВК працює на вихідній частоті дискретизації. Кодер ЗВК працює паралельно з основним базовим кодеком, хоча і на вищій частоті дискретизації. Хоча ЗВК являє собою головним чином пост-обробку в декодері, важливі параметри витягуються в кодері, щоб забезпечити найбільш точне високочастотне відновлення в декодері. Кодер оцінює спектральну обвідну діапазону 5ВЕ для часового і частотного діапазону/розділення, прийнятних для поточних характеристик сегментів вхідного сигналу. Спектральна обвідна оцінюється за допомогою комплексного аналізу ОМЕ і подальшого обчислення енергії. Часові і частотні розділення спектральних обвідних можуть вибиратися з високим рівнем свободи, щоб забезпечувати найбільш прийнятне часове/частотне розділення для даного вхідного сегмента. Оцінка обвідної повинна враховувати, що перехідний процес у вихідній, головним чином, у високочастотній області (наприклад, підп-паї (хай-хет)) буде бути присутньою в меншій мірі в згенерованому ЗВК високому діапазоні перед корекцією обвідної, оскільки високий діапазон в декодері оснований на низькому діапазоні, де перехідний процес набагато менш виражений порівняно з високим діапазоном. Цей аспект накладає різні вимоги для часового/частотного розділення даних спектральною обвідною порівняно зі звичайною оцінкою спектральної обвідної, як використовується в інших алгоритмах кодування аудіо.

Крім спектральної обвідної, витягуються декілька додаткових параметрів, що представляють спектральні характеристики вхідного сигналу для різних часових і частотних областей. Оскільки кодер природним чином має доступ до вихідного сигналу, а також до інформації про те, як модуль ЗВК в декодері буде створювати високий діапазон, з урахуванням конкретного набору керуючих параметрів, система зможе справлятися з ситуаціями, де низький діапазон складає сильний гармонічний ряд, а відтворюваний високий діапазон, головним чином складає довільні сигнальні компоненти, а також ситуації, де сильні тональні компоненти присутні у вихідному високому діапазоні без еквівалентів в низькому діапазоні, на якому базується область смуги високих частот. Більше того, кодер ВЕ працює в тісному зв'язку з основним базовим кодеком, щоб оцінювати, який частотний діапазон повинен покриватися за допомогою ЗВЕ в даний час.

Дані 5ВК ефективно кодуються до передачі за допомогою використання ентропійного

Зо кодування, а також канальних залежності керуючих даних, у випадку стереосигналів.

Алгоритми витягання керуючого параметра звичайно повинні бути ретельно налаштовані на основний кодек при даній бітовій швидкості і даній частоті дискретизації. Це зумовлено тим фактом, що більш низька бітова швидкість звичайно має на увазі більший діапазон 5ВЕ порівняно з високою бітовою швидкістю, і різні частоти дискретизації відповідають різним часовим розділенням кадрів 5ВЕ.

Декодер З5ВК звичайно включає декілька різних частин. Він містить модуль декодування бітового потоку, модуль високочастотного відновлення (НЕК), модуль додаткових високочастотних компонентів і модуль коректора обвідної. Система основується на банку фільтрів ОМЕ з комплексними значеннями (для ЗВЕ. високої якості) або банку фільтрів ОМЕ з речовинними значеннями (для ВК низької потужності). Варіанти здійснення винаходу застосовні як до ЗВК високої якості, так і до ЗВК низької потужності. У модулі витягання бітового потоку, керуючі дані зчитуються з бітового потоку і декодуються. Часо-частотну сітку отримують для поточного кадру, перед зчитуванням даних обвідної з бітового потоку. Основний базовий декодер декодує аудіосигнал поточного кадру (хоча і на низькій швидкості дискретизації), щоб сформувати вибірки аудіо часової області. Отриманий в результаті кадр даних аудіо використовується для високочастотного відновлення модулем НЕК. Декодований сигнал в смузі низьких частот потім аналізується з використанням банку фільтрів ОМЕ.

Високочастотне відновлення і корекція обвідної потім виконуються на піддіапазонних вибірках банку фільтрів ОМЕ. Високі частоти відновлюються з низького діапазону гнучким чином, на основі заданих керуючих параметрів. Більше того, відновлений високий діапазон адаптивно фільтрується на основі піддіапазонного каналу відповідно до керуючих даних, щоб забезпечити відповідні спектральні характеристики даної часової/частотної області.

Верхній рівень бітового потоку МРЕС-4 ААС являє собою послідовність блоків даних (елементів "гам/ даїа Бріоск"), кожний з яких являє собою сегмент даних (що згадується тут як "блок"), який містить дані аудіо (звичайно для часового періоду 1024 або 960 вибірок) і пов'язану інформацію і/або інші дані. Тут, ми використовуємо термін "Слок" для позначення сегмента бітового потоку МРЕС-4 ААС, що містить дані аудіо (і відповідні метадані і опційно також інші пов'язані дані), що визначає або вказує один (але не більше одного) елемент "гам/ даїа бріоск".

Кожний блок бітового потоку МРЕС-4 ААС може включати деяку кількість синтаксичних бо елементів (кожний з яких також матеріалізований в бітовому потоці як сегмент даних). Сім типів таких синтаксичних елементів визначені в стандарті МРЕС-4 ААС. Кожний синтаксичний елемент ідентифікований різним значенням елемента "і зуп ее" даних. Приклади синтаксичних елементів включають "зіпдіе спаппе! еІетепі)", "спаппе! раїг еетепі)" і "Й еІетепі)0". Елемент одного каналу являє собою контейнер, що включає дані аудіо одного аудіоканалу (монофонічний аудіосигнал)у. Елемент пари каналів включає дані аудіо двох аудіоканалів (тобто, стереофонічний аудіосигнал).

Елемент наповнення являє собою контейнер інформації, що включає ідентифікатор (наприклад, значення вказаного вище елемента "ід 5уп еїе"), за яким йдуть дані, які згадуються як "дані наповнення". Елементи наповнення історично використовувалися, щоб коректувати миттєву бітову швидкість бітових потоків, які повинні передаватися по каналу з постійною швидкістю передачі. Шляхом додавання відповідної кількості даних наповнення в кожний блок, можна досягнути постійної швидкості передачі даних.

Відповідно до варіантів здійснення винаходу, дані наповнення можуть включати одне або більше корисних навантажень розширення, які розширюють тип даних (наприклад, метаданих), здатних передаватися в бітовому потоці. Декодер, який приймає бітові потоки з даними наповнення, що містять новий тип даних, може опційно використовуватися пристроєм, що приймає бітовий потік (наприклад, декодером), щоб розширювати функціональність пристрою.

Таким чином, як може бути зрозуміло фахівцеві в даній галузі техніки, елементи наповнення являють собою спеціальний тип структури даних і відрізняються від структур даних, що звичайно використовуються для передачі даних аудіо (наприклад, корисних навантажень аудіо, що містять дані каналу).

У деяких варіантах здійснення винаходу, ідентифікатор, що використовується, щоб ідентифікувати елемент наповнення, може складатися з трибітного цілого числа без знаку із старшим бітом, що передається першим ("піт5рі"), що має значення Охб. У одному блоці, може з'являтися декілька екземплярів одного і того ж типу синтаксичного елемента (наприклад, декілька елементів наповнення).

Іншим стандартом для кодування бітових потоків аудіо є стандарт єдиного кодування мови і аудіо МРЕС (О5АС) (ІБОЛЕС 23003-3:2012). Стандарт МРЕС ИОБ5БАС описує кодування і декодування аудіоконтента з використанням обробки реплікації спектрального діапазону

Зо (включаючи обробку ЗВЕ, як описано в стандарті МРЕС-4 ААС, а також включаючи інші розширені форми обробки реплікації спектрального діапазону). Ця обробка застосовує інструменти реплікації спектрального діапазону (що іноді згадуються тут як "інструменти розширеної ЗВЕ" або "Інструменти езВК") розширеної і поліпшеної версії набору інструментів

ЗВЕ, описаних в стандарті МРЕС-4 ААС. Таким чином, езВК (як визначено в стандарті ОБАС) є удосконаленням 5ВК (як визначено в стандарті МРЕС-4 ААС).

Тут, ми використовуємо вираз "обробка розширеної ЗВ" (або "обробка е5ВК") для позначення обробки реплікації спектрального діапазону з використанням щонайменше одного інструмента езВК (наприклад, щонайменше одного інструмента езВК, який описаний або згаданий в стандарті МРЕС ЗАС), який не описаний або згаданий в стандарті МРЕС-4 ААДС.

Прикладами таких інструментів еЗВЕ є гармонічна транспозиція і додаткова попередня обробка

ОМЕ-вставки латки або "попереднє згладжування".

Гармонічний транспозер (модуль транспозиції) цілого порядку Т відображає синусоїду з частотою 0) в синусоїду з частотою То), в той же час зберігаючи тривалість сигналу. Три порядки, 1-2, 3, 4, звичайно використовуються послідовно, щоб формувати кожну частину бажаного вихідного частотного діапазону з використанням найменшого можливого порядку транспозиції. Якщо потрібний вихід вище діапазону транспозиції четвертого порядку, він може генеруватися зсувами частоти. Коли можливо, близькі критично дискретизовані часові області основної смуги створюються для обробки, щоб мінімізувати обчислювальну складність.

Гармонічний транспозер може бути оснований на ОМЕ або на ОЕТ. При використанні гармонічного транспозера на основі ОМЕ, розширення ширини смуги сигналу часової області базового кодера виконується повністю в області ОМЕ, з використанням модифікованої структури фазового вокодера, виконуючи прорідження з подальшим часовим розтягненням для кожного піддіапазону ОМЕ. Транспозиція з використанням декількох коефіцієнтів транспозиції (наприклад, 7-2, 3, 4) виконується на стадії звичайного перетворення аналізу/синтезу ОМЕ.

Оскільки гармонічний транспозер на основі ОМЕ не виявляє адаптивної до сигналу надмірної дискретизації частотної області, відповідна мітка в бітовому потоці (5бгОмегзатріїпуоніад(снІ) може ігноруватися.

При використанні гармонічного транспозера на основі ОЕТ, транспозери коефіцієнтів З і 4 (транспозери 3-го і 4-го порядки) переважно інтегруються в транспозер коефіцієнта 2 бо (транспозер 2-го порядку) за допомогою інтерполяції для зменшення складності. Для кожного кадру (відповідно вибіркам базового кодера согеСодегЕтатеї! епдій), номінальний розмір "повнорозмірного" перетворення транспозера спочатку визначається міткою адаптивної до сигналу надмірної дискретизації частотній області (5бгОмегзатріїпоРіІад(сп) в бітовому потоці.

Коли 5бгРаїспіпдаМоде--1, вказуючи, що лінійна транспозиція повинна використовуватися, щоб генерувати високий діапазон, може вводитися додатковий етап, щоб уникнути переривань в формі спектральної обвідної високочастотного сигналу, що вводиться в подальший коректор обвідної. Це поліпшує операцію подальшої стадії корекції обвідної, приводячи в результаті до сигналу в смузі високих частот, який сприймається як більш стабільний. Операція додаткової попередньої обробки є вигідною для типів сигналу, де груба обвідна спектра сигналу в смузі низьких частот, що використовується для відновлення високих частот, демонструє великі варіації в рівні. Однак значення елемента бітового потоку може визначатися в кодері шляхом застосування будь-якого виду залежної від сигналу класифікації. Додаткова попередня обробка переважно активується через однобітний елемент бітового потоку, б5 5Ббг ргергосе55іпуд. Коли ре 5Ббг ргергосез5іпд встановлений в один, додаткова обробка увімкнена. / Коли р5 5Бг ргергосеззіпд встановлений в нуль, додаткова попередня обробка вимкнена. Додаткова обробка переважно використовує криву ргебСаіїп, яка використовується високочастотним генератором, щоб масштабувати низький діапазон, Хі ому, для кожної вставки латки. Наприклад, крива ргеСаїіп може обчислюватися відповідно до: ргесаїгік) - 1Оствапмго -Іюм'ЕпмЗіор е(К))/ 20 бекеко де Ко являє собою перший піддіапазон ОМЕ в зведеній таблиці частотних діапазонів, і

Іом'ЄЕпибЗіоре обчислюється з використанням функції, яка обчислює коефіцієнти полінома най о фо опУо адратів), такої як роїутйщ). Наприклад,

Може дає од удитися (з викоріЯ анням поліному третього ступеню), і де питтітевіфв КАТЕ б. ОеКеко де х Іом/'бапа(к)-(0...Ко-1Ї, питТітезіої являє собою кількість часових сегментів обвідної

ЗВЕ, які існують в кадрі, КАТЕ є сталою, що вказує кількість піддіапазонних вибірок ОМЕ на часовий сегмент (наприклад, 2), Фк являє собою коефіцієнт лінійного фільтра прогнозу (який потенційно отріурться з методу коваріації), і де оМЕпМК) теапМмту- 0 сс

Ко .

Бітовий потік, що генерується відповідно до стандарту МРЕС ЗАС (що іноді згадується тут як "бітовий потік ОБАС"), включає закодований аудіоконтент і звичайно включає метадані, які вказують кожний тип обробки реплікації спектрального діапазону, що підлягає застосуванню декодером, щоб декодувати аудіоконтент бітового потоку ОБАС, і/або метадані, які керують

З5 такою обробкою реплікації спектрального діапазону і/або вказують щонайменше одну характеристику або параметр щонайменше одного інструмента ЗВК і/або інструмента езВК, що підлягає використанню, щоб декодувати аудіоконтент бітового потоку ОБАС.

Тут, ми використовуємо вираз "метадані розширеної 5ВЕ" (або "метадані езВК") для позначення метаданих, які вказують кожний тип обробки реплікації спектрального діапазону, що підлягає застосуванню декодером, щоб декодувати аудіоконтент закодованого бітового потоку аудіо (наприклад, бітового потоку БАС), і/або які керують такою обробкою реплікації спектрального діапазону і/або вказують щонайменше одну характеристику або параметр щонайменше одного інструмента 5ВЕ і/або інструмента езВЕ, що підлягає використанню, щоб декодувати такий аудіоконтент, але які не описані або не згадані в стандарті МРЕС-4 ААС.

Прикладом метаданих езВК є метадані (призначені для вказівки або керування обробкою реплікації спектрального діапазону), які описані або згадані в стандарті МРЕС БАС, але не в стандарті МРЕС-4 ААС. Таким чином, метадані ез5ВК тут означають метадані, які не є метаданими ВЕ, і метадані 5ВЕК тут означають метадані, які не є метаданими езВЕ.

Бітовий потік ОБАС може включати як метадані ЗВЕ, так і метадані езВК. Більш конкретно, бітовий потік ЮОБАС може включати метадані езВК, які керують виконанням обробки е5ВЕ декодером, і метадані 5ВЕ, які керують виконанням обробки ЗВК декодером. Відповідно до типових варіантів здійснення даного винаходу, метадані езВК (наприклад, специфічні для еЗВЕ дані конфігурації) включені (відповідно до даного винаходу) в бітовий потік МРЕС-4 ААС (наприклад, в контейнері 5бг ехіепзіопо) на кінці навантаження ЗВК).

Виконання обробки езвВК, під час декодування закодованого бітового потоку з використанням набору інструментів еЗВЕ (що містить щонайменше один інструмент езВК), декодером регенерує високочастотний діапазон аудіосигналу, на основі реплікації послідовностей гармонік, які були відсічені під час кодування. Така обробка е5Ве звичайно коректує обвідну спектра згенерованого високочастотного діапазону і застосовує зворотну фільтрацію, і додає шум і синусоїдальні компоненти, щоб відтворити спектральні характеристики вихідного аудіосигналу.

Відповідно до типових варіантів здійснення винаходу, метадані езВвкК включені (наприклад, включена мала кількість керуючих бітів, які являють собою метадані езВК) в один або декілька сегментів метаданих закодованого бітового потоку аудіо (наприклад, бітового потоку МРЕО-4

ААС), який також включає закодовану дані аудіо в інших сегментах (сегментах даних аудіо).

Звичайно, щонайменше один такий сегмент метаданих кожного блока бітового потоку являє собою (або включає) елемент наповнення (який включає ідентифікатор, який вказує початок елемента наповнення), і метадані езВвкК включені в елемент наповнення після ідентифікатора.

Фіг. 1 являє собою блок-схему зразкового ланцюга обробки аудіо (системи обробки даних аудіо), в якій один або більше елементів системи можуть бути сконфігуровані відповідно до варіанту здійснення даного винаходу. Система включає наступні елементи, пов'язані між собою, як показано: кодер 1, підсистема 2 доставки, декодер З і модуль 4 пост-обробки. У різних варіантах показаної системи, один або декілька елементів опущені, або включені додаткові модулі обробки даних аудіо.

У деяких реалізаціях, кодер 1 (який опційно включає модуль попередньої обробки) сконфігурований, щоб приймати вибірки РОМ (часової області), що містять аудіоконтент, як вхід і виводити закодований бітовий потік аудіо (який має формат, який сумісний зі стандартом

МРЕС-4 ААС), який вказує аудіоконтент. Дані бітового потоку, які вказують аудіоконтент, іноді згадуються тут як "дані аудіо" або "закодовані дані аудіо". Якщо кодер сконфігурований відповідно до типового варіанту здійснення даного винаходу, бітовий потік аудіо, що виводиться з кодера, включає метадані еЗзЗВК (і звичайно також інші метадані), а також дані аудіо.

Один або декілька закодованих бітових потоків аудіо, виведених з кодера 1, можуть забезпечуватися в підсистему 2 доставки закодованого аудіо. Підсистема 2 сконфігурована, щоб зберігати і/або доставляти кожний закодований бітовий потік, виведений з кодера 1.

Закодований бітовий потік аудіо, виведений з кодера 1, може зберігатися підсистемою 2 (наприклад, в формі ЮОМО або Віи-гау диска) або передаватися підсистемою 2 (яка може реалізовувати лінію зв'язку або мережу передачі) або може як зберігатися, так і передаватися підсистемою 2.

Декодер З сконфігурований, щоб декодувати закодований бітовий потік аудіо МРЕС-4 ДАЄ (згенерований кодером 1), який він приймає за допомогою підсистеми 2. В деяких варіантах здійснення, декодер 3 сконфігурований, щоб витягувати метадані е5ВЕ з кожного блока бітового потоку і декодувати бітовий потік (в тому числі за допомогою виконання обробки е5ВіК з використанням витягнутих метаданих еВ), щоб згенерувати декодовані дані аудіо (наприклад, потоки вибірок декодоване аудіо РОМ). У деяких варіантах здійснення, декодер З сконфігурований, щоб витягувати метадані ЗВК з бітового потоку (але ігнорувати метадані еЗВЕ, включені в бітовий потік) і декодувати бітовий потік (в тому числі за допомогою виконання обробки ЗВЕК з використанням витягнутих метаданих ЗВК), щоб генерувати декодовані дані аудіо (наприклад, потоки вибірок декодованого аудій РОМ). Звичайно, декодер З включає буфер, який зберігає (наприклад, нетимчасовим чином) сегменти закодованого бітового потоку аудіо, прийнятого від підсистеми 2.

Модуль 4 пост-обробки згідно з фіг. 1 сконфігурований, щоб приймати потік декодованих даних аудіо від декодера З (наприклад, вибірки декодованого аудіо РСМ) і виконувати на них пост-обробку. Модуль пост-обробки може також бути сконфігурований, щоб відтворювати пост- оброблений аудіоконтент (або декодоване аудіо, прийняте від декодера 3) для відтворення

БО одним або більше динаміками.

Фі. 2 являє собою блок-схему кодера (100), який являє собою варіант здійснення відповідного винаходу модуля обробки аудіо. Будь-який з компонентів або елементів кодера 100 може бути реалізовані як один або більше процесів і/або одна або більше схем (наприклад,

АБІС, ЕРОА або інших інтегральних схем) в апаратних засобах, програмному забезпеченні або комбінації апаратних засобів і програмного забезпечення. Кодер 100 включає кодер 105, стадію (каскад) 107 наповнювача/лока форматування, каскад 106 генерації метаданих і буферну пам'ять 109, з'єднані як показано. Звичайно також, кодер 100 включає інші елементи обробки (не показані). Кодер 100 сконфігурований, щоб перетворювати вхідний бітовий потік аудіо на закодований вихідний бітовий потік МРЕС-4 ААС. бо Генератор 106 метаданих приєднаний і сконфігурований, щоб генерувати (і/або пропускати б на каскад 107) метадані (що включають метадані е5ВК і метадані З5ВК), що підлягають включенню каскадом 107 в закодований бітовий потік, який повинен виводитися з кодера 100.

Кодер 105 приєднаний і сконфігурований, щоб кодувати (наприклад, шляхом виконання на ньому стиснення) введені дані аудіо і забезпечувати отримані в результаті закодовані аудіо в каскад 107 для включення в закодований бітовий потік, який повинен виводитися з каскаду 107.

Каскад 107 сконфігурований, щоб мультиплексувати закодоване аудіо з кодера 105 і метадані (що включають метадані е5ВкК і метадані 5ВК) з генератора 106, щоб генерувати закодований бітовий потік, що підлягає виведенню з каскаду 107, переважно так, що закодований бітовий потік має формат, як специфікований одним з варіантів здійснення даного винаходу.

Буферна пам'ять 109 сконфігурована, щоб зберігати (наприклад, нетимчасовим чином) щонайменше один блок закодованого бітового потоку аудіо, виведеного з каскаду 107, і послідовність блоків закодованого бітового потоку аудіо потім забезпечується з буферної пам'яті 109 як вихід з кодера 100 в систему доставки.

Фіг. З являє собою блок-схему системи, що включає декодер (200), який являє собою варіант здійснення відповідного винаходу модуля обробки аудіо, і опційно також пост-процесор (300), зв'язаний з ним. Будь-який з компонентів або елементів декодера 200 і пост-процесора 300 може бути реалізовані як один або більше процесів і/або одна або більше схем (наприклад,

АБІС, ЕРОА або інші інтегральні схеми) в апаратних засобах, програмному забезпеченні або комбінації апаратних засобів і програмного забезпечення. Декодер 200 містить буферну пам'ять 201, блок розформатування навантаження бітового потоку (синтаксичний аналізатор) 205, підсистему 202 декодування аудіо (що іноді згадується як "базовий" каскад декодування або "базова" підсистема декодування), каскад 203 обробки еЗВЕ. і каскад 204 генерації керуючих бітів, зв'язані, як показано. Звичайно також, декодер 200 включає інші елементи обробки (не показані).

Буферна пам'ять (буфер) 201 зберігає (наприклад, нетимчасовим чином) щонайменше один блок закодованого бітового потоку аудіо МРЕС-4 ААС, прийнятого декодером 200. При роботі декодера 200, послідовність блоків бітового потоку додається з буфера 201 в блок 205 розформатування.

Зо У варіаціях варіанту здійснення згідно з фіг. З (або варіантах здійснення згідно з фіг. 4, які будуть описані), АР, який не є декодером (наприклад, АРИ 500 на фіг. 6), включає буферну пам'ять (наприклад, буферну пам'ять, ідентичну буферу 201), який зберігає (наприклад, нетимчасовим чином) щонайменше один блок закодованого бітового потоку аудіо (наприклад, бітовий потік аудіо МРЕС-4 ААС) того ж самого типу, прийнятого буфером 201 згідно з фіг. З або фіг. 4 (тобто, закодованого бітового потоку аудіо, який включає метадані е5ВкК).

З посиланням знов на фіг. 3, блок 205 розформатування приєднаний і сконфігурований, щоб демультиплексувати кожний блок бітового потоку для витягання з нього метаданих З5ВК (що включають квантовані дані обвідної) і метаданих еЗВКЕ (і звичайно також інших метаданих), щоб забезпечувати щонайменше метадані е5ВК і метадані 5ВК в каскад 203 обробки езВЕ і звичайно також забезпечувати інші витягнуті метадані в підсистему 202 декодування (і опційно також керувати генератором 204 бітів). Блок 205 розформатування також приєднаний і сконфігурований, щоб витягувати дані аудіо з кожного блока бітового потоку і забезпечувати витягнуту дані аудіо в підсистему 202 декодування (каскад декодування).

Система згідно з фіг. З опційно також включає пост-процесор 300. Пост-процесор 300 включає буферну пам'ять (буфер) 301 і інші елементи обробки (не показані), включаючи щонайменше один елемент обробки, зв'язаний з буфером 301. Буфер 301 зберігає (наприклад, нетимчасовим чином) щонайменше один блок (або кадр) декодованих даних аудіо, прийнятих пост- процесором 300 від декодера 200. Елементи обробки пост-процесора 300 приєднані і сконфігуровані, щоб приймати і адаптивно обробляти послідовність блоків (або кадрів) декодованого аудіо, виведеного з буфера 301, з використанням метаданих, виведених з підсистеми 202 декодування (і/або блока 205 розформатування), і/або керувати бітами, виведеними з каскаду 204 декодера 200.

Підсистема 202 декодування аудіо декодера 200 сконфігурована, щоб декодувати дані аудіо, витягнуті синтаксичним аналізатором 205 (таке декодування може згадуватися як операція "базового" декодування), щоб генерувати декодовані дані аудіо і забезпечувати декодовані дані аудіо в каскад 203 обробки е5ВЕ. Декодування виконується в частотній області і звичайно включає зворотне квантування, за яким йде спектральна обробка. Звичайно, кінцевий каскад обробки в підсистемі 202 застосовує перетворення з частотної області на часову область до декодованих даних аудіо частотної області, так що вихід з підсистеми являє 60 собою декодовані дані аудіо часової області. Каскад 203 сконфігурований, щоб застосовувати інструменти 5ВК і інструменти езВК, вказані метаданими еЗзВК і езвк (витягнутими синтаксичним аналізатором 205), до декодованих даних аудіо (тобто, щоб виконати обробку

ЗВК і еЗзВК над виходом підсистеми 202 декодування з використанням метаданих 5ВК і еЗзВК), щоб генерувати повністю декодовані дані аудіо, які виводяться (наприклад, в пост-процесор 300) з декодера 200. Звичайно, декодер 200 включає пам'ять (доступ до якої здійснюється підсистемою 202 і каскадом 203), яка зберігає розформатовані дані аудіо і метадані, виведені з блока 205 розформатування, і каскад 203 сконфігурований, щоб здійснювати доступ до даних аудіо і метаданих (включаючи метадані ЗВЕ і метадані езВК) при необхідності під час обробки

ЗВЕ і е5ВЕ. Обробка ЗВЕК і обробка еЗВК в каскаді 203 можуть розглядатися як пост-обробка над виходом підсистеми 202 базового декодування. Опційно, декодер 200 також включає підсистему кінцевого підвищуючого мікшування (яка може застосовувати інструменти параметричного стерео ("Р5"), визначені в стандарті МРЕСО-4 ААС, з використанням метаданих

РБ5, витягнутих блоком 205 розформатування, і/або керуючих бітів, згенерованих в підсистемі 204), яка приєднана і сконфігурована, щоб виконувати підвищуюче мікшування над виходом каскаду 203, щоб генерувати повністю декодоване, мікшоване з підвищенням аудіо, яке виводиться з декодера 200. Альтернативно, пост-процесор 300 сконфігурований, щоб виконувати підвищуюче мікшування над виходом декодера 200 (наприклад, з використанням метаданих Р5, витягнутих блоком 205 розформатування, і/або керуючих бітів, згенерованих в підсистемі 204).

У відповідь на метадані, витягнуті блоком 205 розформатування, генератор 204 керуючих бітів може генерувати керуючі дані, і керуючі дані можуть використовуватися в декодері 200 (наприклад, в підсистемі кінцевого підвищуючого мікшування) і/або забезпечуватися як вихід декодера 200 (наприклад, в пост-процесор 300 для використання в пост-обробці). У відповідь на метадані, витягнуті з вхідного бітового потоку (і опційно також у відповідь на керуючі дані), каскад 204 може генерувати (і забезпечувати в пост-процесор 300) керуючі біти, які вказують, що декодовані дані аудіо, виведені з каскаду 203 обробки езВЕ, повинні піддаватися конкретному типу пост-обробки. У деяких реалізаціях, декодер 200 сконфігурований, щоб забезпечувати метадані, витягнуті блоком 205 розформатування з вхідного бітового потоку, в пост-процесор 300, і пост- процесор 300 сконфігурований, щоб виконувати пост-обробку на декодованих даних аудіо, виведених з декодера 200, з використанням метаданих.

Фіг. 4 являє собою блок-схему модуля (210) обробки аудіо ("АРиИ"), який являє собою інший варіант здійснення відповідного винаходу модуля обробки аудіо. АРО 210 є успадкованим декодером, який не сконфігурований, щоб виконувати обробку езВкК. Будь-який з компонентів або елементів АРО 210 може бути реалізовані як один або більше процесів і/або одна або більше схем (наприклад, АБІС, ЕРСА або інших інтегральних схем) в апаратних засобах, програмному забезпеченні або комбінації апаратних засобів і програмного забезпечення. АРУ 210 містить буферну пам'ять 201, блок 215 розформатування корисного навантаження бітового потоку (синтаксичний аналізатор), підсистему 202 декодування аудіо (що іноді згадується як каскад "базового" декодування або підсистема "базового" декодування) і каскад 213 обробки

ЗВЕ, з'єднані, як показано. Звичайно також, АРИО 210 включає інші елементи обробки (не показані). АР 210 може представляти, наприклад, кодер, декодер або транскодер аудіо.

Елементи 201 і 202 АРИ 210 ідентичні ідентично пронумерованим елементам декодера 200 (фіг. З), і їх опис, приведений вище, не буде повторюватися. При роботі АРИ 210, послідовність блоків закодованого бітового потоку аудіо (бітового потоку МРЕС-4 ААС), прийнятого за допомогою АР) 210, забезпечується з буфера 201 в блок 215 розформатування.

Блок 215 розформатування приєднаний і сконфігурований, щоб демультиплексувати кожний блок бітового потоку, щоб витягувати метадані ЗВК (включаючи квантовані дані обвідної) і звичайно також інші метадані з нього, але ігнорувати метадані еЗзВК, які можуть бути включені в бітовий потік відповідно до будь-якого варіанту здійснення даного винаходу. Блок 215 розформатування сконфігурований, щоб забезпечувати щонайменше метадані 5ВК в каскад 213 обробки ЗВК. Блок 215 розформатування також приєднаний і сконфігурований, щоб витягувати дані аудіо з кожного блока бітового потоку і щоб забезпечувати витягнуті дані аудіо в підсистему 202 декодування (каскад декодування).

Підсистема 202 декодування аудіо декодера 200 сконфігурована, щоб декодувати дані аудіо, витягнуту блоком 215 розформатування (таке декодування може називатися операцією "базового" декодування), щоб генерувати декодовані дані аудіо і забезпечувати декодовані дані аудіо в каскад 213 обробки 5ВК. Декодування виконується в частотній області. Звичайно, кінцевий каскад обробки в підсистемі 202 застосовує перетворення з частотної області у часову область до декодованих даних аудіо частотної області, так що вихід підсистеми являє собою 60 декодовані дані аудіо часової області. Каскад 213 сконфігурований, щоб застосовувати інструменти 5ВЕ (але не інструменти еЗзВЕ), вказані метаданими ЗВЕ (витягнутими блоком 215 розформатування), до декодованих даних аудіо (тобто, виконувати обробку ЗВК над виходом підсистеми 202 декодування з використанням метаданих ЗВК), щоб генерувати повністю декодовані дані аудіо, які виводяться (наприклад, в пост-процесор 300) з АР 210. Звичайно,

АРИ 210 включає пам'ять (доступ до якої здійснюється підсистемою 202 і каскадом 213), яка зберігає розформатовані дані аудіо і метадані, виведені з пристрою 215 розформатування, і каскад 213 сконфігурований, щоб здійснювати доступ до даних аудіо і метаданих (включаючи метадані ЗВК) при необхідності під час обробки ЗВК. Обробка 5ВЕ в каскаді 213 може розглядатися як пост-обробка над виходом підсистеми 202 базового декодування. Опційно, АРО 210 також включає підсистему кінцевого підвищуючого мікшування (яка може застосовувати інструменти параметричного стерео ("РБ5"), визначені в стандарті МРЕС-4 ААС, з використанням метаданих Р5, витягнутих блоком 215 розформатування), яка приєднана і сконфігурована, щоб виконувати підвищуюче мікшування над виходом каскаду 213, щоб генерувати повністю декодоване, мікшоване з підвищенням аудіо, яке виводиться з АРИ 210.

Альтернативно, пост-процесор сконфігурований, щоб виконувати підвищуюче мікшування над виходом АРИО 210 (наприклад, з використанням метаданих Р5, витягнутих блоком 215 розформатування, і/або керуючих бітів, згенерованих в АРИ 210).

Різні реалізації кодера 100, декодера 200 і АРИО 210 сконфігуровані, щоб виконувати різні варіанти здійснення відповідного винаходу способу.

Відповідно до деяких варіантів здійснення, метадані езВК включені (наприклад, включена мала кількість керуючих бітів, які являють собою метадані е5ВЕ) в закодований бітовий потік аудіо (наприклад, бітовий потік МРЕС-4 ААС), так що успадковані декодери (які не сконфігуровані, щоб синтаксично аналізувати метадані е5Вк або використовувати який-небудь інструмент ез5ВК, до якого мають відношення метадані езВкК), можуть ігнорувати метадані еЗВК, але проте декодувати бітовий потік в можливій мірі без використання метаданих езВік або якого-небудь інструмента еЗВК, до якого мають відношення метадані езВЕ, звичайно без якого-небудь значного погіршення якості декодованого аудіо. Однак, декодери езвк, сконфігуровані, щоб синтаксично аналізувати бітовий потік для ідентифікації метаданих еЗВЕК і використання щонайменше одного інструмента езВвкК у відповідь на метадані езВК, будуть

Зо витягувати вигоду з використання щонайменше одного такого інструмента еЗВК. Тому, варіанти здійснення винаходу забезпечують засіб для ефективної передачі керуючих даних або метаданих розширеної реплікації спектрального діапазону (езвВвк) зворотно сумісним чином.

Звичайно, метадані езВК в бітовому потоці вказують (наприклад, вказують щонайменше одну характеристику або параметр) один або більше з наступних інструментів езВК (які описані в стандарті МРЕС ОЗАС і які можуть або не можуть застосовуватися кодером під час генерації бітового потоку): - гармонічна транспозиція; і - додаткова попередня обробка ОМЕ-вставки латки (попереднє згладжування).

Наприклад, метадані еЗзВЕ, включені в бітовий потік, можуть вказувати значення параметрів (описані в стандарті МРЕС ОБАС їі в даному розкритті): 5збгРаїспіпуаМоае|сн|, 5ргОмегзатріїпоніад(сп)у, 5бгРСПІпВіпв|(|сСпІ, 5бгРЇСПІпВіпо5(спу і 65 5бг ргергосезвзіпад.

Тут, позначення Х|сСПІ, де Х представляє деякий параметр, означає, що параметр стосується каналу ("сп") аудіоконтента закодованого бітового потоку, що підлягає декодуванню. Для простоти, ми іноді опускаємо вираз (сп) і передбачаємо, що релевантний параметр стосується каналу аудіоконтента.

Тут, позначення ХІспІ(епмі, де Х представляє деякий параметр, означає, що параметр стосується обвідної ВЕ. ("епу") каналу ("сп") аудіоконтента закодованого бітового потоку, що підлягає декодуванню. Для простоти, ми іноді опускаємо вирази (епмі і (сп) і передбачаємо, що релевантний параметр стосується обвідної 5ВЕ. каналу аудіоконтента.

Під час декодування закодованого бітового потоку, виконання гармонічної транспозиції на стадії обробки е5ВЕ декодування (для кожного каналу, "сі", аудіоконтента, вказаного бітовим потоком) керується наступними параметрами метаданих езвк: 5бгРаїспіпаМоае|сп|: 5ргОмегзатріїпоніад(сп); 5бгРИСПІпВіп5 Радіус; і 5бгРИСПІпВІіп5|СНІ.

Значення "зБбгРаїспіпоаМоде|сп)" вказує тип транспозера, що використовується в езВЕ: зргРаїгспіпомМоде(|снп|-1 вказує вставку латки шляхом лінійної транспозиції, як описано в Розділі 4.6.18 стандарту МРЕС-4 ААС (як використовується з 5ВЕ високої якості або ЗВК низької потужності); 5бгРаїспіпаМоде|сп|-О вказує вставку латки у вигляді гармонічної 5ВК, як описано в Розділі 7.5.3 або 7.5.4 стандарти МРЕС БАС.

Значення "5ргОмегзатріїпоРіІад|сп)" вказує використання адаптивної до сигналу надмірної бо дискретизації частотної області в езВЕ в комбінації з вставкою латки у вигляді гармонічної 5ВЕ на основі ОЕТ, як описане в Розділі 7.5.3 стандарту МРЕС ЗАС. Ця мітка контролює розмір

ОЕТ, які використовуються в транспозері: 1 вказує, щоб адаптивна до сигналу надмірна дискретизація частотної області включена, як описано в Розділі 7.5.3.1 стандарту МРЕС 5АС;

О вказує, що адаптивна до сигналу надмірна дискретизація частотної області відключена, як описано в Розділі 7.5.3.1 стандарту МРЕС О5АС.

Значення "5БгРіЇспІпВіп5|Сп)!" керує додаванням членів векторного добутку в гармонічний транспозер ЗВЕ. Значення 5бБгРіїспіпВіп5|Сп| являє собою ціле значення в діапазоні (0,127 і представляє відстань, виміряну в частотних бінах (елементах розділення) для 1536-лінійного

ОЕТ, що діє на частоті дискретизації базового кодера.

У випадку, якщо бітовий потік МРЕС-4 ААС вказує пару каналів 5ВЕ, канали якої не зв'язані (а не одиночний канал ЗВЕ), бітовий потік вказує два зразки синтаксису, наведеного вище (для гармонічної або негармонійної транспозиції), по одному для кожного каналу 5Бг спаппеї! раї еіетепі).

Гармонічна транспозиція інструмента езВК звичайно поліпшує якість декодованих музичних сигналів при відносно низьких частотах переходу. Негармонійна транспозиція (тобто, успадкована спектральна вставка латки) звичайно поліпшує мовні сигнали. Таким чином, відправною точкою при рішенні, який тип транспозиції переважний для кодування конкретного аудіоконтента, є вибір способу транспозиції залежно від детектування мови/музики з гармонічною транспозицією, що підлягає використанню на музичному контенті, і спектральною вставкою латки на мовному контенті.

Виконання попереднього згладжування під час обробки еЗзВЕ керується значенням однобітного параметра метаданих езВЕ, відомого як "Б5 5бг ргергосез5зіпд", в тому значенні, що попереднє згладжування або виконується, або не виконується залежно від значення цього одного біта. Коли використовується алгоритм ОМЕ-вставки латки 5ВК, як описано в Розділі 4.6.18.6.3 стандарту МРЕС-4 ААС, етап попереднього згладжування може виконуватися (коли указано параметром "р5 5бг ргергосе55зіпд") в спробі уникнути переривань в формі спектральної обвідної високочастотного сигналу, що вводиться в послідовний коректор обвідної (коректор обвідної виконує іншу стадію обробки е5ВК). Попереднє згладжування звичайно поліпшує роботу подальшої стадії корекції обвідної, приводячи в результаті до сигналу в смузі високих частот, який сприймається як більш стабільний.

Очікується, що загальна вимога бітової швидкості для включення в метадані езВкК бітового потоку МРЕС-4 ААС, які вказують вищезазначені інструменти еЗзВК (гармонічна транспозиція і попереднє згладжування) буде порядку декількох сотень бітів на секунду, оскільки тільки диференціальні керуючі дані, необхідні для виконання обробки езВкК, передаються відповідно до деяких варіантів здійснення винаходу. Успадковані декодери можуть ігнорувати цю інформацію, оскільки вона включена зворотно сумісним чином (як буде пояснено нижче). Тому, несприятливий вплив на бітову швидкість, асоційований з включенням метаданих езвЕн, знехтувано малий, з ряду причин, включаючи наступні: - погіршення бітової швидкості (через включення метаданих езВкК) складає дуже малу частку від повної бітової швидкості, оскільки передаються тільки диференціальні керуючі дані, необхідні для виконання обробки еЗвВЕ (і не одночасна передача керуючих даних 5ВКЕ); і - налаштування пов'язаної з 5ВК керуючої інформації звичайно не залежить від подробиць транспозиції. Приклади того, коли керуючі дані залежать від операції транспозера, обговорюються далі в даній заявці.

Таким чином, варіанти здійснення винаходу забезпечують засіб для ефективної передачі керуючих даних або метаданих розширеної реплікації спектрального діапазону (езвк) зворотно сумісним чином. Ця ефективна передача керуючих даних е5ВК зменшує вимоги пам'яті в декодерах, кодерах і транскодерах, що застосовують аспекти винаходу, в той же час не маючи відчутного негативного впливу на бітову швидкість. Більше того, складність і вимоги обробки, асоційовані з виконанням еЗВК відповідно до варіантів здійснення винаходу, також знижуються, оскільки дані 5ВЕ необхідно обробити тільки один раз і не передавати одночасно, що мало б місце, якби езВК оброблялася як повністю окремий тип об'єкта в МРЕС-4 ААС замість інтеграції в кодек МРЕС-4 ААС зворотно сумісним чином.

Далі, з посиланням на фіг. 7, описуються елементи блока ("гам/ даїа БіосК") бітового потоку

МРЕС-4 ААС, в який включені метадані езВК відповідно до деяких варіантів здійснення даного винаходу. Фіг. 7 являє собою діаграму блока ("гау/ даїа БіосК") бітового потоку МРЕС-4 ААС, бо що показує деякі з його сегментів.

Блок бітового потоку МРЕС-4 ААС може включати щонайменше один "віпдіє спаппе! еіетепі)" (наприклад, один елемент каналу, показаний на фіг. 7) і/або щонайменше один "спаппе! раїг еІетепі)" (не показаний конкретно на фіг. 7, хоча може бути присутнім), включаючи дані аудіо для аудіопрограми. Блок може також включати деяку кількість "Й еІетепіє" (наприклад, елемент 1 наповнення і/або елемент 2 наповнення на фіг. 7), включаючи дані (наприклад, метадані), що стосуються програми. Кожний "віпдіє спаппе! еїетепі)" включає ідентифікатор (наприклад, "ІЮ1" на фіг. 7), який вказує початок елемента одного каналу, і може включати дані аудіо, які вказують інший канал багатоканальної аудіопрограми. Кожний "спаппе! раїг еіетепі" включає ідентифікатор (не показаний на фіг. 7), який вказує початок елемента пари каналів, і може включати дані аудіо, які вказують два канали програми. тії еіетепі (що згадується тут як елемент наповнення) бітового потоку МРЕС-4 ААДС включає ідентифікатор (102" на фіг. 7), який вказує початок елемента наповнення, і дані наповнення після ідентифікатора. Ідентифікатор ІЮ2 може складатися з першого трибітного цілого числа без знаку зі старшим бітом, що передається першим ("ціт5бБі"), що має значення

Охб. Дані наповнення можуть включати елемент ехіепзіоп рауїсадО) (що іноді згадується тут як навантаження розширення), синтаксис якого показаний в Таблиці 4.57 стандарту МРЕС-4 ДАС.

Існує декілька типів навантажень розширення, що ідентифікуються за допомогою параметра "ехіепзіоп їуре", який являє собою чотирибітне ціле число без знаку зі старшим бітом, що передається першим ("цйт5бБі").

Дані наповнення (наприклад, його корисне навантаження розширення) можуть включати заголовок або ідентифікатор (наприклад, "пеадегі" на фіг. 7), який вказує сегмент даних наповнення, які вказують об'єкт 5ВЕК (тобто, заголовок ініціалізувати тип "об'єкт ВК", званий 5рг ехієпзіоп даїа) в стандарті МРЕС-4 ААС). Наприклад, навантаження розширення реплікації спектрального діапазону (ЗВК) ідентифікується за допомогою значення "1101" або "1110, для поля ехіепзіоп їуре в заголовку, при цьому ідентифікатор "1101" ідентифікує навантаження розширення з даними ЗВК, і "1110' ідентифікує навантаження розширення з даними ЗВК з контролем циклічним надмірним кодом (СКС) для верифікації коректності даних

ЗВ.

Зо Коли заголовок (наприклад, поле ехіепзіоп їуре) ініціалізує тип об'єкта 5ВЕ, метадані ЗВЕ (що іноді згадуються тут як "дані реплікації спектрального діапазону" і що згадуються як 5Брг дага) в стандарті МРЕС-4 ААС) йдуть за заголовком, і щонайменше один елемент розширення реплікації спектрального діапазону (наприклад, "елемент розширення ВЕ" елемента 1 наповнення на фіг. 7) може йти за метаданими 5ВК. Такий елемент розширення реплікації спектрального діапазону (сегмент бітового потоку) згадується як контейнер "5бг ехіепзіоп" в стандарті МРЕС-4 ААС. Елемент розширення реплікації спектрального діапазону опційно включає заголовок (наприклад, "заголовок розширення ЗВК" елемента 1 наповнення на фіг. 7).

Стандарт МРЕС-4 ААС передбачає, що елемент розширення реплікації спектрального діапазону може включати дані Р5 (параметричного стерео) для даних аудіо програми. Стандарт

МРЕС-4 ААС передбачає, що коли заголовок елемента наповнення (наприклад, його навантаження розширення) ініціалізує тип об'єкта 5ЗВЕК (як це робить "пеадегі" на фіг. 7), і елемент розширення реплікації спектрального діапазону елемента наповнення включає дані

Р5, елемент наповнення (наприклад, його корисне навантаження розширення) включає дані реплікації спектрального діапазону, і параметр "р5 ехіепвзіоп ід", значення якого (тобто, р5 ехіепзіоп їа-2) вказує, що дані Р5 включені в елемент розширення реплікації спектрального діапазону елемента наповнення.

Відповідно до деяких варіантів здійснення даного винаходу, метадані езВвкК (наприклад, мітка, яка вказує, чи повинна виконуватися обробка розширеної реплікації спектрального діапазону (е5ВК) на контенті аудіо блока) включені в елемент розширення реплікації спектрального діапазону елемента наповнення. Наприклад, така мітка вказана в елементі 1 наповнення на фіг. 7, де мітка з'являється після заголовка (заголовок розширення ЗВЕ" елемента 1 наповнення) "елемента розширення 5ВК" елемента 1 наповнення. Опційно, така мітка і додаткові метадані езВК включені в елемент розширення реплікації спектрального діапазону після заголовка елемента розширення реплікації спектрального діапазону (наприклад, в елементі розширення ЗВК елемента 1 наповнення на фіг. 7, після заголовка розширення ВК). Відповідно до деяких варіантів здійснення даного винаходу, елемент наповнення, який включає метадані езВЕ, також включає параметр "р5 ехіепвіоп іа", значення якого (наприклад, р5 ехіепвтіоп ід-3) вказує, що метадані езВК включені в елемент наповнення 60 і що обробка езВК повинна виконуватися на аудіоконтенті релевантного блока.

Відповідно до деяких варіантів здійснення винаходу, метадані езвк включені в елемент наповнення (наприклад, елемент 2 наповнення на фіг. 7) бітового потоку МРЕС-4 ААС, інший, ніж елемент розширення реплікації спектрального діапазону (елемент розширення ВЕК) елемента наповнення. Це так, оскільки елементи наповнення, що містять ехіепзіоп рауїсаадо з даними 5ВЕ, або дані 5ВЕК з СЕС не містять ніякого іншого навантаження розширення будь- якого іншого типу розширення. Тому, у варіантах здійснення, де метадані езВЕ. зберігаються з їх власним корисним навантаженням розширення, окремий елемент наповнення використовується для зберігання метаданих еЗзВК. Такий елемент наповнення включає ідентифікатор (наприклад, "ІЮ2" на фіг. 7), який вказує початок елемента наповнення, і дані наповнення після ідентифікатора. Дані наповнення можуть включати елемент ехіепзіоп рауїсаді) (іноді згадується тут як корисне навантаження розширення), синтаксис якого показаний в Таблиці 4.57 стандарту МРЕС-4 ААС. Дані наповнення (наприклад, їх корисне навантаження розширення) включають заголовок (наприклад, "пеадег2" елементи 2 наповнення на фіг. 7), який вказує об'єкт еЗВК (тобто, заголовок ініціалізує тип об'єкта розширеної реплікації спектрального діапазону (езВК)), і дані наповнення (наприклад, їх корисне навантаження розширення) включають метадані езВкК після заголовка. Наприклад, елемент 2 наповнення на фіг. 7 включає такий заголовок ("Пеадег2") і також включає, після заголовка, метадані езВК (тобто, "мітку" в елементі 2 наповнення, яка вказує, чи потрібно виконувати обробку розширеної реплікації спектрального діапазону (езВК) на аудіоконтенті блока).

Опційно, додаткові метадані езВкК також включені в дані наповнення елемента 2 наповнення на фіг. 7, після пеадег2. У варіантах здійснення, що описуються в попередньому абзаці, заголовок (наприклад, пеадег2 на фіг. 7) має значення ідентифікації, яке не є жодним з традиційних значень, специфікованих в Таблиці 4.57 стандарту МРЕС-4 ААС, і замість цього вказує корисне навантаження розширення еЗзВК (так що поле ехіепзіоп їуре заголовка вказує, що дані наповнення включають метадані езВК).

У першому класі варіантів здійснення, винахід являє собою модуль обробки аудіо (наприклад, декодер), що містить: пам'ять (наприклад, буфер 201 на фіг. З або 4), сконфігуровану, щоб зберігати щонайменше один блок закодованого бітового потоку аудіо (наприклад, щонайменше один блок бітового

Зо потоку МРЕС-4 ААДС); блок розформатування навантаження бітового потоку (наприклад, елемент 205 на фіг. З або елемент 215 на фіг. 4), пов'язаний з пам'яттю і сконфігурований, щоб демультиплексувати щонайменше одну частину згаданого блока бітового потоку; і підсистему декодування (наприклад, елементи 202 і 203 на фіг. З або елементи 202 і 213 на фіг. 4), приєднану і сконфігуровану, щоб декодувати щонайменше одну частину аудіоконтента згаданого блока бітового потоку, причому блок включає: елемент наповнення, що включає ідентифікатор, який вказує початок елемента наповнення (наприклад, ідентифікатор "ії б5уп еїЇе", що має значення Ох6, Таблиці 4.85 стандарту МРЕС-4

ААС), і дані наповнення після ідентифікатора, причому дані наповнення включають: щонайменше одну мітку, що ідентифікує, чи повинна виконуватися обробка розширеної реплікації спектрального діапазону (еЗзВК) на аудіоконтенті блока (наприклад, з використанням даних реплікації спектрального діапазону і метаданих еЗВЕ, включених в блок).

Мітка являє собою метадані езВК, і прикладом мітки є мітка 5бгРаїспіпоМоде. Іншим прикладом мітки є мітка паптопіс53ВК. Обидві з цих міток вказують, повинна виконуватися базова форма реплікації спектрального діапазону або розширена форма спектральної реплікації відносно даних аудіо блока. Базовою формою спектральної реплікації є спектральна вставка латки, і розширеною формою реплікації спектрального діапазону є гармонічна транспозиція.

У деяких варіантах здійснення, дані наповнення також включають додаткові метадані езВвік (тобто, метадані еЗВК, відмінні від мітки).

Пам'ять може являти собою буферну пам'ять (наприклад, реалізація буфера 201 на фіг. 4), яка зберігає (наприклад, нетимчасовим чином) щонайменше один блок закодованого бітового потоку аудіо.

Оцінюється, що складність виконання обробки езвВК (з використанням гармонічної транспозиції езВЕ і попереднього згладжування) декодером еЗВК під час декодування бітового потоку МРЕС-4 ААС, який включає метадані езЗзВК (вказуючі ці інструменти езВЕ), буде наступною (для типового декодування з вказаними параметрами):

Гармонічна транспозиція (16 кбіт/с, 14400/28800 Гц) - на основі ОЕТ: 3,68 МУМОРЗ (зважений мільйон операцій в секунду); 60 - на основі ОМЕ: 0,98 М/МОР5;

Попередня обробка ОМЕ-вставки латки (попереднє згладжування): 0,1М/МОРБ.

Відомо, що транспозиція на основі ОЕТ звичайно виконується краще, ніж транспозиція на основі ОМЕ для перехідних процесів.

Відповідно до деяких варіантів здійснення даного винаходу, елемент наповнення (закодованого бітового потоку аудіо), який включає метадані е5ВЕ, також включає параметр (наприклад, параметр "р5 ехіепзіоп ій"), значення якого (наприклад, р5 ехіепвіоп ід-З3) сигналізує, що метадані е5ВК включені в елемент наповнення і що обробка е5ВвК повинна виконуватися на аудіоконтенті релевантного блока, і/або параметр (наприклад, той же самий параметр "Б5 ехіепзіоп ій"), значення якого (наприклад, р5 ехіепзіоп ій-2) сигналізує, що контейнер 5рбг ехіепзіоп() елемента наповнення включає дані Р5. Наприклад, як зазначено в

Таблиці 1 нижче, такий параметр, що має значення Бб5 ехієпзіоп ід-2, може сигналізувати, що контейнер 5бг ехіепзіоп() елемента наповнення включає дані Р5, і такий параметр, що має значення 05 ехіепзіоп 0-3, може сигналізувати, що контейнер 5брг ехіепзіоп0) елемента наповнення включає метадані еЗзВЕ:

Таблиця 1 00001111 |Зарезервовано.///7/:/К/:///С/:/3/:///:К/и

Відповідно до деяких варіантів здійснення винаходу, синтаксис кожного елемента розширення реплікації спектрального діапазону, який включає метадані езВК і/або дані РБ, є таким, як вказаний в Таблиці 2 нижче (в якої "5бг ехіепвіоп/))" означає контейнер, який являє собою елемент розширення реплікації спектрального діапазону, "Б5 ехіепбзіоп ід" є таким як описано в Таблиці 1 вище, "р5 дайа" означає дані Р, і "е5бг даїа" означає метадані езВК):

Таблиця 2 ові ехіепвіоп(рв ехівпвіоп ід, пит БИ еЮ /////7777777711111111111111111111Ї111сСс1 нини ші 1 вмйсп(рв ехівпвіоп ДЮ СС////11111111111111111111111111ї1 7 савеєхтЕМВІЮМІЮ РІ 77711111 вва 111 о савеєхТЕМБІЮМ І ЕБВВІГ/:/С777777777777771111111111111111Ї111111с1с ак 11 пи ТЕТ ОО КО вон; 11111111 пит вив ейноїСГ///1111111111111111111111111Ї11 о ввакр11111111111 нини нини

Примітка 1: р даїа() повертає число зчитаних бітів.

Примітка 2: езбг даїа() повертає число зчитаних бітів.

У зразковому варіанті здійснення, езбг даїад), на який посилаються в Таблиці 2 вище, вказує значення наступних параметрів метаданих: 1. Однобітний параметр метаданих, "б5 5Ббг ргергосевзвіпод"; і 2. Для кожного каналу ("сп") аудіоконтента закодованого бітового потоку, що підлягає декодуванню, кожний З вищеописаних параметрів: "5БгРаїспіпамМоде|спІу";

Зо "взБгОмегзатріїпоРіІад(снІ"; "зргРИСпПІпВіпз РІад(снІ"; ї "«огРИСПІпВіп5(|сп)".

Наприклад, в деяких варіантах здійснення, е5бг даїа() може мати синтаксис, вказаний в

Таблиці 3, щоб вказувати ці метадані параметри:

Таблиця З о евро даїв(ій аас,рв соиріпо)ї 77777111 нини 11 ща аа 5СДСССС/1111111111111111111111111111111Ї1 еве71111111111Ї1 ооовріРИСпВійІОЇ-0; 77777111 зве 11111 11111111. врОмегватріпонадю|-0; 77777771 11111010 вбіРИСПЮВИвІЮЇ-0Ї 777777777711111111111111111111111111Ї11 р о |евей(йаас--Ю СРЕОДДЇС///777777771111111111111111111Ї11 11111111 4всоорійоуїуГ/171111111111111111111111111111111111111Ї1 вів пит тТТе ТА ПЕ НО ПО реве 1111111 11111111 вбОмегватріпобадіюдтІі-оЇ 77777771 11111110 вбіРИСПЮВИвІОМІ-0; 7777777777111111111111111111Ї11 нн 7777717... фзвве(/овсоцрійдя-ОМ 77777771 вів 01111100 вбРИСПЮВвЮЇ-0; 77777771 зве 11111111 11111111 вріОмегватріпомадю-о; //7777777771111111Ї1111 11111110 вбіРИСпюВвОЇ-0; 77777771 нь вве 11111111111111вбіРИСпЮВОВМІ-0; 77777771 рве 11 11111111 вбіОмегватріпойад|)-0; 77777777777111111111Ї11111 111110110овбіРОСНОВИЗМ)-ОЇ 77777711 0 нини нииюн"ШБШ:ИООЛООТОООВВВВВВВВВВЛВЛВЛОЛОЛЛЛВТЛВЛОЛВОЛВОВОТЛВОТЛВОТВИОТЛВОВЛОО НЯ нн

Синтаксис, описаний вище, забезпечує ефективну реалізацію розширеної форми реплікації спектрального діапазону, такої як гармонічна транспозиція, як розширення успадкованого декодера. Конкретно, дані е5ВЕ Таблиці З включають тільки ті параметри, необхідні для виконання розширеної форми реплікації спектрального діапазону, які або не є вже підтримуваними в бітовому потоці, або не витягуються напряму з параметрів, що вже підтримуються в бітовому потоці. Всі інші параметри і дані обробки, необхідні для виконання розширеної форми реплікації спектрального діапазону, витягуються із попередньо існуючих параметрів у вже певних місцеположеннях в бітовому потоці.

Наприклад, сумісний з МРЕС-4 НЕ-ААС або НЕ-ААС м2 декодер може бути розширений, щоб включати розширену форму реплікації спектрального діапазону, таку як гармонічна транспозиція. Ця розширена форма реплікації спектрального діапазону доповнює базову форму реплікації спектрального діапазону, декодером, що вже підтримується. У контексті сумісного з

МРЕС-4 НЕ-ААС або НЕ-ААС м2 декодера, цією базовою формою реплікації спектрального діапазону є інструмент 5ВК спектральної вставки латки ОМЕ, як визначено в Розділі 4.6.18 стандарту МРЕС-4 ДАбС.

При виконанні розширеної форми реплікації спектрального діапазону, розширений декодер

НЕ-ААС може повторно використовувати множину параметрів бітового потоку, вже включених в навантаження розширення 5ВК бітового потоку. Конкретні параметри, які можуть повторно використовуватися, включають, наприклад, різні параметри, які визначають зведену таблицю частотних діапазонів. Ці параметри включають р5 в5іагі їед (параметр, який визначає початок параметра зведеної таблиці частот), 5 5іор їед (параметр, який визначає кінець зведеної таблиці частот), 05 їтед 5саіе (параметр, який визначає кількість частотних діапазонів на октаву) і р5 акег 5саіе (параметр, який змінює масштаб частотних діапазонів). Параметри, які можуть використовуватися повторно, також включають параметри, які визначають таблицю шумових діапазонів (р5 поїзе рапіб5), і параметри таблиці обмежувальних діапазонів (р5 тег рапа5). Відповідно, в різних варіантах здійснення, щонайменше деякі з еквівалентних параметрів, специфікованих в стандарті ОБАС, опущені з бітового потоку, тим самим зменшує

Зо непродуктивні витрати керування в бітовому потоці. Звичайно, якщо параметр, специфікований в стандарті ААС, має еквівалентний параметр, специфікований в стандарті ОБАС, то еквівалентний параметр, специфікований в стандарті ОБАС, має те ж саме значення, що і параметр, специфікований в стандарті ААС, наприклад, коефіцієнт масштабування обвідної

ЕОгідмарред. Однак, еквівалентний параметр, специфікований в стандарті ОБАС, звичайно має інше значення, яке "настроюється" для обробки розширеної ЗВЕ, визначеної в стандарті ОБАС, а не для обробки ЗВЕ, визначеної в стандарті ААС.

Щоб поліпшити суб'єктивну якість для аудіоконтента зі структурою гармонічних частот і суворими тональними характеристиками, зокрема на низьких бітових швидкостях, рекомендується активація розширеної ЗВК. Значення відповідного елемента бітового потоку (тобто езбг дата), що керує цими інструментами, може визначатися в кодері шляхом застосування залежного від сигналу механізму класифікації. Загалом, використання способу гармонічної вставки латки (збгРаїспіпоаМоде--1) переважне для кодування музичних сигналів при дуже низьких бітових швидкостях, де базовий кодек може бути значно обмежений в ширині смуги аудіо. Це особливо вірно, якщо ці сигнали включають структуру з явно вираженими гармонічними коливаннями. Навпаки, використання способу вставки латки у вигляді регулярної

ЗВЕ є переважним для мовних і змішаних сигналів, оскільки воно забезпечує краще збереження часової структури в мові.

Щоб поліпшити виконання гармонічного транспозера, може активуватися етап попередньої обробки (05 50бг ргергосе55іпд--1), який прагне уникнути появи спектральних переривань сигналу, що надходить в подальший коректор обвідної. Операція даного інструмента вигідна для типів сигналу, де груба обвідна спектра сигналу в смузі низьких частот, що використовується для високочастотного відновлення, демонструє великі варіації в рівні.

Щоб поліпшити відгук перехідного процесу вставки латки у вигляді гармонічної 5ВЕ, може застосовуватися адаптивна до сигналу надмірна дискретизація частотної області (5БгОмегзатріїпдРіад--1). Оскільки адаптивна до сигналу надмірна дискретизація частотної області підвищує обчислювальну складність транспозера, але приносить вигоди тільки для кадрів, які містять перехідні процеси, використання цього інструмента керується елементом бітового потоку, який передається однократно на кадр і на незалежний канал З5ВК.

Декодер, працюючий в запропонованому режимі розширеної ЗВК, звичайно повинен бути здатний перемикатися між вставкою латки у вигляді успадкованої і розширеної ЗВК. Тому, може виникнути затримка, яка може бути рівна тривалості одного базового кадру аудіо, залежно від настройки декодера. Звичайно, затримка для вставки латки у вигляді як успадкованої, так і розширеної ЗВЕ, буде аналогічною.

У доповнення до численних параметрів, інші елементи даних можуть також повторно використовуватися розширеним декодером НЕ-ААС при виконанні розширеної форми реплікації спектрального діапазону відповідно до варіантів здійснення винаходу. Наприклад, дані обвідної і дані рівня шуму можуть також витягуватися з даних р5 даїа епм (коефіцієнти масштабування обвідної) і 5 поїзе епм (коефіцієнти масштабування рівня шуму) і використовуватися під час розширеної форми реплікації спектрального діапазону.

По суті, ці варіанти здійснення використовують параметри конфігурації і дані обвідної, що вже підтримуються успадкованим декодером НЕ-ААС або НЕ-ААС ма2 в корисному навантаженні розширення 5ВК, для забезпечення розширеної форми реплікації спектрального діапазону, що вимагає по можливості менших даних, що додатково передаються. Метадані початково настроювалися для базової форми НЕК (наприклад, операція спектрального перенесення

ЗВЕ), але, відповідно до варіантів здійснення, використовуються для розширеної форми НЕК (наприклад, гармонічної транспозиції езВК). Як обговорено раніше, метадані, загалом,

Зо представляють робочі параметри (наприклад, коефіцієнти масштабування обвідної, коефіцієнти масштабування рівня шуму, параметри часової/частотної сітки, інформація додавання синусоїд, змінна частота переходу/діапазону, режим зворотної фільтрації, розділення обвідної, режим згладжування, режим частотної інтерполяції), що настроюються і призначені для використання з базовою формою НЕК (наприклад, лінійним спектральним перенесенням). Однак, ці метадані, в поєднанні з додатковими параметрами метаданих, специфічними для розширеної форми НЕК (наприклад, гармонічної транспозиції), можуть використовуватися, щоб ефективно і результативно обробляти дані аудіо з використанням розширеної форми НЕК.

Відповідно, розширені декодери, які підтримують розширену форму реплікації спектрального діапазону, можуть створюватися дуже ефективним чином з опорою на вже певні елементи бітового потоку (наприклад, елементи в корисному навантаженні розширення ЗВЕ) і шляхом додавання тільки тих параметрів, які необхідні для підтримки розширеної форми реплікації спектрального діапазону (в корисному навантаженні розширення елемента наповнення). Ця особливість зменшення даних в поєднанні з приміщенням знову доданих параметрів в зарезервоване поле даних, таке як контейнер розширення, істотно зменшує перешкоди до створення декодера, який підтримує розширену форму реплікації спектрального діапазону, за рахунок забезпечення того, що бітовий потік є зворотно сумісним з успадкованим декодером, не підтримуючим розширену форму реплікації спектрального діапазону. Буде зрозуміло, що зарезервоване поле даних є зворотно сумісним полем даних, тобто, являє собою таке поле даних, яке вже підтримується більш ранніми декодерами, такими як успадковані декодери НЕ-ААС або НЕ-ААС м2. Аналогічно, контейнер розширення є зворотно сумісним, тобто, являє собою такий контейнер розширення, який вже підтримується більш ранніми декодерами, такими як успадковані декодери НЕ-ААС або НЕ-ААС маг.

У Таблиці 3, число в правому стовпці вказує кількість бітів відповідного параметра в лівому стовпці.

У деяких варіантах здійснення, тип об'єкта 5ВК, визначений в МРЕС-4 ААС, оновлюється, щоб містити інструмент ЗВЕ і аспекти інструмента розширеної 5ВЕ. (еЗВЕК), як сигналізується в елементі розширення ЗВК (05 ехіепзіоп ій-- ЕХТЕМ5БІОМ І ЕЗВК). Якщо декодер виявляє цей елемент розширення ЗВК, декодер використовує сигналізовані аспекти інструмента розширеної ЗВЕ. 60 У деяких варіантах здійснення, винахід являє собою спосіб, що включає етап кодування даних аудіо, щоб генерувати закодований бітовий потік (наприклад, бітовий потік МРЕС-4 ААС), що включає метадані еЗвкК в щонайменше одному сегменті щонайменше одного блока закодованого бітового потоку і дані аудій в щонайменше одному іншому сегменті блока. У типових варіантах здійснення, спосіб включає етап мультиплексування даних аудіо з метаданими езВЕ в кожному блоці закодованого бітового потоку. У типовому декодування закодованого бітового потоку в декодері езВК, декодер витягує метадані е5Ве з бітового потоку (в тому числі шляхом синтаксичного аналізу і демультиплексування метаданих е5ЗВК і даних аудіо) і використовує метадані е5ВЕ, щоб обробляти дані аудіо, щоб згенерувати потік декодованих даних аудіо.

Іншим аспектом винаходу є декодер еЗзВЕ, сконфігурований, щоб виконувати обробку езвк (наприклад, з використанням щонайменше одного з інструментів езВК, відомих як гармонічна транспозиція або попереднє згладжування) під час декодування закодованого бітового потоку аудіо (наприклад, бітового потоку МРЕС-4 ААС), який не включає метадані езВЕ. Приклад такого декодера буде описаний з посиланням на фіг. 5.

Декодер (400) еЗВЕ згідно з фіг. 5 включає буферну пам'ять 201 (яка ідентична пам'яті 201 на фіг. З і 4), блок 215 розформатування навантаження бітового потоку (який ідентичний блока 215 розформатування на фіг. 4), підсистему 202 декодування аудіо (яка іноді називається каскадом "базового" декодування або підсистемою "базового" декодування і яка ідентична підсистемі 202 базового декодування на фіг. 3), підсистему 401 генерації керуючих даних еЗВК і каскад 203 обробки езВК (який ідентичний каскаду 203 на фіг. З), з'єднані, як показано.

Звичайно також, декодер 400 включає інші елементи обробки (не показані).

При роботі декодера 400, послідовність блоків закодованого бітового потоку аудіо (бітового потоку МРЕС-4 АДАС), прийнята декодером 400, забезпечується з буфера 201 в блок 215 розформатування.

Блок 215 розформатування приєднаний і сконфігурований, щоб демультиплексувати кожний блок бітового потоку, щоб витягувати з нього метадані 5ВК (які включають квантовані дані обвідної) і звичайно також інші метадані. Блок 215 розформатування сконфігурований, щоб забезпечувати щонайменше метадані ЗВК в каскад 203 обробки еВ. Блок 215 розформатування також приєднаний і сконфігурований, щоб витягувати дані аудіо з кожного

Зо блока бітового потоку і забезпечувати витягнуту дані аудіо в підсистему (каскад декодування) 202 декодування.

Підсистема 202 декодування аудіо декодера 400 сконфігурована, щоб декодувати дані аудіо, витягнуту блоком 215 розформатування (таке декодування може згадуватися як операція "базового" декодування), щоб генерувати декодовані дані аудіо і забезпечувати декодовані дані аудіо в каскад 203 обробки е5ВК. Декодування виконується в частотній області. Звичайно, кінцева стадія обробки в підсистемі 202 застосовує перетворення з частотної області у часову область до декодованих даних аудіо частотної області, так що вихід підсистеми являє собою декодовані дані аудіо часової області. Каскад 203 сконфігурований, щоб застосовувати інструменти 5ВЕ (і інструменти еЗзВК), вказані метаданими 5ВК (витягнутими блоком 215 розформатування) і метаданими езвК, згенерованими в підсистемі 401, до декодованих даних аудіо (тобто, щоб виконувати обробку 5ВЕ і е5ВК над виходом підсистеми 202 декодування з використанням метаданих ЗВК і еЗзВК), щоб генерувати повністю декодовані дані аудіо, які являють собою вихід декодера 400. Звичайно, декодер 400 включає пам'ять (доступ до якої здійснюється підсистемою 202 і каскадом 203), яка зберігає розформатовані дані аудіо і метадані, виведені з блока 215 розформатування (і опційно також підсистеми 401), і каскад 203 сконфігурований, щоб здійснювати доступ до даних аудіо і метаданих по мірі необхідності під час обробки ЗВЕ і е5ВК. Обробка 5ВК в каскаді 203 може розглядатися як пост-обробка виходу підсистеми 202 базового декодування. Опційно, декодер 400 також включає підсистему кінцевого підвищуючого мікшування (яка може застосовувати інструменти параметричного стерео ("Р5"), визначені в стандарті МРЕС-4 ААС, з використанням метаданих РБ5, витягнутих блоком 215 розформатування), яка приєднана і сконфігурована, щоб виконувати підвищуюче мікшування виходу каскаду 203, щоб генерувати повністю декодований, мікшоване з підвищенням аудіо, яке являє собою вихід АРи 210.

Параметричне стерео є інструментом кодування, який представляє стерео-сигнал з використанням лінійного мікшування зі зниженням лівого і правого каналів стерео-сигналу і наборів просторових параметрів, що описують стерео-зображення. Параметричне стерео звичайно застосовує три типи просторових параметрів: (1) міжканальні різниці інтенсивності (Пр), що описують різниці інтенсивності між каналами; (2) міжканальні різниці фази (ІРО), що описують різниці фази між каналами; і (3) міжканальна когерентність (СС), що описує бо когерентність (або схожість) між каналами. Когерентність може бути виміряна як максимум крос-

кореляції в функції часу або фази. Ці три параметри, загалом, забезпечують можливість високоякісного відновлення стерео-зображення. Однак параметри ІРО специфікують тільки відносні різниці фаз між каналами вхідного стерео-сигналу і не вказують розподіл цих різниць фаз по лівому і правому каналах. Тому, може додатково використовуватися четвертий тип параметра, що описує загальний зсув фази або загальну різницю фаз (ОРО). У процесі відновлення стерео, послідовні віконні сегменти прийнятого мікшованого зі зниженням сигналу, 9ІпіІ, і декорельованої версії прийнятого мікшування зі зниженням, 4(п|, обробляються разом з просторовими параметрами, щоб згенерувати лівий (Ік(п)) і правий (їк(п)) відновлені сигнали відповідно до:

Іси)-Ни(К, п)вк(п)-На((К, п)дк(п) "к(п)-НІг(К, п)5к(п)-Нах(К, п)дк(п) де Ніч, Ніг, Неї і На визначаються параметрами стерео. Сигнали Ік(п) і "к(п)в результаті перетворюються зворотно у часову область за допомогою частотно-часового перетворення.

Підсистема 401 генерації керуючих даних згідно з фіг. 5 приєднана і сконфігурована, щоб виявляти щонайменше одну властивість закодованого бітового потоку аудіо, що підлягає декодуванню, і генерувати керуючі дані езВки. (які можуть являти собою або включати метадані еЗВК будь-якого з типів, включені в закодовані бітові потоки аудіо відповідно до інших варіантів здійснення винаходу) у відповідь на щонайменше один результат етапу виявлення. Керуючі дані е5ВК забезпечуються в каскад 203, щоб запустити застосування окремих інструментів еЗВЕ або комбінацій інструментів езВЕ після виявлення конкретної властивості (або комбінацій властивостей) бітового потоку і/або щоб керувати застосуванням таких інструментів езВЕ.

Наприклад, щоб керувати виконанням обробки езВК з використанням гармонічної транспозиції, деякі варіанти здійснення підсистеми 401 генерації керуючих даних будуть включати: детектор музики (наприклад, спрощена версія традиційного детектора музики) для установки параметра 5зБгРаїспіпоМоде|сп| (і забезпечення встановленого параметра в каскад 203) у відповідь на виявлення, що бітовий потік вказує або не вказує музику; детектор перехідних процесів для установки параметра 5бгОмегзатріїпоРіІад(Ісп| (і забезпечення встановленого параметра в каскад 203) у відповідь на виявлення наявності або відсутність перехідних процесів в аудіоконтенті, вказаному бітовим потоком; і/або детектор висоти тону для установки параметрів

Зо 5БгРИСПІпВіп5 РіадіспІ і 5бгР'їспІпВіп5(сп) (і забезпечення встановлених параметрів в каскад 203) у відповідь на виявлення висоти тону аудіоконтента, вказаного бітовим потоком. Іншими аспектами винаходу є способи декодування бітового потоку аудіо, що виконуються будь-яким варіантом здійснення відповідного винаходу декодера, описаного в цьому абзаці і попередньому абзаці.

Аспекти винаходу включають спосіб кодування або декодування такого типу, для виконання якого сконфігурований (наприклад, запрограмований) будь-який варіант здійснення відповідного винаходу АРИ, системи або пристроїв. Інші аспекти винаходу включають систему або пристрій, сконфігурований (наприклад, запрограмований), щоб виконувати будь-який варіант здійснення відповідного винаходу способу, і зчитуваний комп'ютером носій (наприклад, диск), який зберігає код (наприклад, нетимчасовим чином) для реалізації будь-якого варіанту здійснення відповідного винаходу способу або його етапів. Наприклад, відповідна винаходу система може являти собою або включати програмований універсальний процесор, цифровий сигнальний процесор або мікропроцесор, запрограмований за допомогою програмного забезпечення або прошивки і/або іншим чином сконфігурований, щоб виконувати будь-яку з різноманітності операцій на даних, включаючи варіант здійснення відповідного винаходу способу або його етапи. Такий універсальний процесор може являти собою або включати комп'ютерну систему, що включає пристрій введення, пам'ять і схему обробки, запрограмовану (і/або іншим чином сконфігуровану), щоб виконувати варіант здійснення відповідного винаходу способу (або його етапи) у відповідь на забезпечені в неї дані.

Варіанти здійснення даного винаходу можуть бути реалізовані в апаратних засобах, прошивці або програмному забезпеченні або комбінації обох (наприклад, як програмована логічна матриця). Якщо не специфіковане інше, алгоритми або процеси, включені як частина винаходу, не обов'язково стосуються якого-небудь конкретного комп'ютера або іншого пристрою. Зокрема, різні універсальні машини можуть використовуватися з програмами, написаними відповідно до викладених тут принципів, або може бути зручніше створити більш спеціалізований пристрій (наприклад, інтегральні схеми) для виконання необхідних етапів способу. Таким чином, винахід може бути реалізований в одній або більше комп'ютерних програмах, що виконуються на одній або більше програмованих комп'ютерних системах (наприклад, реалізація будь-якого з елементів згідно з фіг. 1 або кодера 100 згідно з фіг. 2 (або 60 його елемента) або декодера 200 згідно з фіг. З (або його елемента) або декодера 210 згідно з фіг. 4 (або його елемента) або декодера 400 згідно з фіг. 5 (або його елемента)), кожна з яких містить щонайменше один процесор, щонайменше одну систему зберігання даних (включаючи енергозалежну або енергонезалежну пам'ять і/або елементи зберігання), щонайменше один пристрій або порт вводу і щонайменше один пристрій або порт виводу. Програмний код застосовується до вхідних даних для виконання функцій, описаних тут, і генерації вихідної інформації. Вихідна інформація подається на одне або більше пристроїв виводу відомим чином.

Кожна така програма може бути реалізована на будь-якій бажаній комп'ютерній мові (включаючи машинні, асемблерні, або високорівневі процедурні, логічні мови або мови об'єктно- орієнтованого програмування) для комунікації з комп'ютерною системою. У будь-якому випадку, мова може являти собою компільовану або інтерпретовану мову.

Наприклад, при реалізації послідовностями комп'ютерних інструкцій програмного забезпечення, різні функції і етапи варіантів здійснення винаходу можуть бути реалізовані послідовностями інструкцій багатопотокового програмного забезпечення, що виконуються у відповідних апаратних засобах обробки цифрових сигналів, в цьому випадку різні пристрої, етапи і функції варіантів здійснення можуть відповідати частинам інструкцій програмного забезпечення.

Кожна така комп'ютерна програма переважно зберігається на або завантажується в носії або пристрій зберігання (наприклад, твердотільну пам'ять або носії або магнітні або оптичні носії), що зчитуються універсальним або спеціалізованим програмованим комп'ютером, для конфігурування і роботи комп'ютера, коли носій або пристрій зберігання зчитується комп'ютерною системою для виконання процедур, описаних тут. Відповідна винаходу система може також бути реалізована як зчитуваний комп'ютером носій зберігання, сконфігурований з (тобто, що зберігає) комп'ютерною програмою, де носій зберігання, сконфігурований таким чином, спонукає комп'ютерну систему працювати конкретним і попередньо визначеним чином для виконання функцій, описаних тут.

Був описаний ряд варіантів здійснення винаходу. Проте, буде зрозуміло, що різні модифікації можуть бути виконані без відхилення від суті і об'єму винаходу. Численні модифікації і варіації даного винаходу можливі в світлі викладеного вище. Наприклад, щоб полегшити ефективні реалізації, фазовий зсуви можуть використовуватися в комбінації з

Зо банками комплексних фільтрів аналізу і синтезу ОМЕ. Банк фільтрів аналізу відповідає за фільтрацію сигналу в смузі низьких частот часової області, згенерованого базового декодером, на множині піддіапазонів (наприклад, ОМЕ-піддіапазонів). Банк фільтрів синтезу відповідає за комбінування регенерованого високого діапазону, сформованого вибраним методом НЕК (як указано прийнятим параметром 5ргРаїспіпаМоде), з декодований низьким діапазоном, щоб сформувати широкосмуговий вихідний аудіосигнал. Дана реалізація банку фільтрів, працююча в певному режимі частоти дискретизації, такому як нормальна операція з подвійною швидкістю або режим 5ВК знижувальної дискретизації, не повинна, однак, мати фазовий зсуви, які залежать від бітового потоку. Банки ОМЕ, що використовуються в 5ВЕК, являють собою комплексно-експонентне розширення теорії косинусно-модульованих банків фільтрів. Можна показати, що обмеження компенсації перешкод дискретизації стають застарілими при розширенні косинусно-модульованого банку фільтрів з комплексно-експонентною модуляцією.

Таким чином, для банків ЗВК ОМЕ, як фільтри аналізу, Нк(п), так і фільтри синтезу, їх(п), можуть визначатися за допомогою! л 1 п пкіп) -їк іе ро рах їй |" - з)

М 2 2 ОхпеМ.ОеКаМ (1) де ро(п) являє собою речово-значний симетричний або асиметричний фільтр-прототип (звичайно, фільтр-прототип нижніх частот), М означає кількість каналів, і М являє собою порядок фільтра-прототипу. Кількість каналів, що використовуються в банку фільтрів аналізу, може відрізнятися від кількості каналів, що використовуються в банку фільтрів синтезу. Наприклад, банк фільтрів аналізу може мати 32 канали, а банк фільтрів синтезу може мати 64 канали. При застосуванні банку фільтрів синтезу в режимі понижувальної дискретизації, банк фільтрів синтезу може мати тільки 32 канали. Оскільки піддіапазонні вибірки з банку фільтрів є комплексно-значними, додатковий можливий етап канально-залежного фазовий зсуву може бути доданий до банку фільтрів аналізу. Ці додаткові фазовий зсуви повинні бути скомпенсовані перед банком фільтрів синтезу. У той час як члени фазовий зсуву в принципі можуть мати довільні значення без порушення роботи ланцюга аналізу/синтезу ОМЕ, вони можуть також бути обмежені певними значеннями для верифікації узгодженості. Сигнал 5ВЕ буде зазнавати вплив вибору фазових коефіцієнтів, в той час як сигнал нижніх частот, що надходять з базового декодера, не буде його зазнавати. Якість аудіо вихідного сигналу не зазнає впливу.

Коефіцієнти фільтра-прототипу, ро(п), можуть визначатися довжиною, ГІ, 640, як показано в

Таблиці 4 нижче.

Таблиця 4 0 | 0бооо0о0о000 | 214 | 0б,0019765601 | 428 | 0,0117623832 6 | -бо005040714 | 220 | -0,0319531274 | 434 | 0,0366418116 8 | -0б0005466565 | 222 | -0,0447806821 | 436 | 0,0434768782 9 | -0б0005677802 | 223 | -000514804176 | 437 | 0,0466303305

Продовження таблиці 4 бо | 0бо019841140 | 274 | 0,5630789140 | 488 | 0.0466843027 66 | 00029469447 | 280 | 0,6б261242695 | 494 | 0,0374812850 68 | 00032739613 | 282 | 0,6461269695 | 496 | 0,0344620948 69 | 0.0034418874 | 283 | 0,6559016302 | 497 | 00329754081 80 | 00050393022 | 294 | 0,7513137456 | 508 | 0,0179433381 86 | 0,0055475714 | 300 | 0,7919735841 | 514 | -0,0111315548 89 | 00056455196 | 303 | 0,8087695004 | 517 | -0,0081798233 90 | 00056389199 | 304 | 08138191270 | 518 | -0,0072615816 96 | 00052715758 | 310 | 0,8379717337 | 524 | -0,0024826723 98 | 0,0049839687 | 312 | 0,8436238281 | 526 | -0,0011568135 99 | 00048109469 | 313 | 0,8459818469 | 527 | -0,0005464280

Продовження таблиці 4

Продовження таблиці 4 172 | 0.0725682583 | 386 / -0,3388722693 | 600 | -0,0002896981 Ж 178 | 0,0761992479 | 392 | -0,2736634040 | 606 | -0,0005946118 181 | 0,0768173975 | 395 | -0,2423016884 | 609 | -0,0006917937 212 | 0.0117623832 | 426 | 000197656661.Й. (213 | 0.0069636862 | 427 | 00069636862

Фільтр-прототип, ро(п), може також виводитися з Таблиці 4 за допомогою однієї або більше математичних операцій, такої як округлення, субдискретизація, інтерполяція і прорідження.

Хоча настройка пов'язаної з ВК керуючої інформації звичайно не залежить від подробиць транспозиції (як розглянуто раніше), в деяких варіантах здійснення певні елементи керуючих даних можуть одночасно передаватися в контейнері розширення еЗзвВК (р5 ехіепзіоп ій--ЕХТЕМ5ІОМ ІЮ ЕЗВЕ) для поліпшення якості регенерованого сигналу. Деякі з елементів, що одночасно передаються, можуть включати дані рівня шуму (наприклад, коефіцієнти масштабування рівня власних шумів і параметр, який вказує напрямок, напрямок за частотою або за часом, дельта-кодування для кожного рівня шуму), дані зворотної фільтрації (наприклад, параметр, який вказує режим зворотної фільтрації, вибраний з відсутності зворотної фільтрації, низького рівня зворотної фільтрації, проміжного рівня зворотної фільтрації і високого рівня зворотної фільтрації, і дані відсутніх гармонік (наприклад, параметр, який вказує, чи повинна синусоїда додаватися в конкретний частотний діапазон регенерованого високого діапазону). Всі з цих елементів спираються на синтезовану емуляцію транспозера декодера, що виконується в кодері, і тому при налаштуванні належним чином для вибраного транспозера можуть підвищувати якість регенерованого сигналу.

Конкретно, в деяких варіантах здійснення, дані відсутніх гармонік ії керуючі дані зворотної фільтрації передаються в контейнері розширення еЗВК (разом з іншими параметрами бітового потоку Таблиці 3) і настроюються для гармонічного транспозера еЗзВК. Додаткова бітова швидкість, необхідна для передачі цих двох класів метаданих для гармонічного транспозера еЗВК, є відносно низькою. Тому, відправка настроєних даних відсутніх гармонік і/або керуючих даних зворотної фільтрації в контейнері розширення езВК підвищить якість аудіо, що формується транспозером, при лише мінімальному впливі на бітову швидкість. Щоб забезпечити зворотну сумісність з успадкованими декодерами, параметри, налаштовані для операції спектрального перенесення 5ВК, можуть також відправлятися в бітовому потоці як частина керуючих даних ЗВЕ з використанням або неявної, або явної сигналізації.

Потрібно розуміти, що в межах об'єму прикладеної формули винаходу, винахід може бути практично реалізований інакше, ніж конкретно описано тут. Будь-які посилальні позиції, що містяться в наступній формулі винаходу, наведені тільки в ілюстративних цілях і не повинні

Зо використовуватися, щоб тлумачити або обмежувати формулу винаходу яким-небудь чином.

Різні аспекти даного розкриття будуть зрозумілі з наступних пронумерованих зразкових варіантів здійснення (ЕЕЕ):

ЕЕЕТ. Спосіб виконання високочастотного відновлення аудіосигналу, причому спосіб містить: прийом закодованого бітового потоку аудіо, причому закодований бітовий потік аудіо включає дані аудіо, що представляють частину смуги низьких частот аудіосигналу, і метадані високочастотного відновлення; декодування даних аудіо, щоб згенерувати декодований аудіосигнал в смузі низьких частот; витягання із закодованого бітового потоку аудіо метаданих високочастотного відновлення, метадані високочастотного відновлення включають робочі параметри для процесу високочастотного відновлення, робочі параметри включають параметр режиму вставки латки, розташований в контейнері розширення закодованого бітового потоку аудіо, причому перше значення параметра режиму вставки латки вказує спектральне перенесення, і друге значення параметра режиму вставки латки вказує гармонічну транспозицію за допомогою розширення частоти фазовий вокодера; фільтрацію декодованого аудіосигналу в Смузі низьких частот, щоб згенерувати відфільтрований аудіосигнал в смузі низьких частот; регенерацію частини смуги високих частот аудіосигналу з використанням відфільтрованого аудіосигналу в смузі низьких частот і метаданих високочастотного відновлення, причому регенерація включає спектральне перенесення, якщо параметр режиму вставки латки має перше значення, і регенерація включає гармонічну транспозицію за допомогою розширення частоти фазовий вокодера, якщо параметр режиму вставки латки має друге значення; і комбінування відфільтрованого аудіосигналу в смузі низьких частот з регенерованою частиною смуги високих частот для формування широкосмугового аудіосигналу.

ЕЕЕ2. Спосіб за ЕЕЕ 1, причому контейнер розширення включає керуючі дані зворотної фільтрації, що підлягають використанню, коли параметр режиму вставки латки дорівнює другому значенню.

ЕЕЕЗ. Спосіб за будь-яким одним з ЕЕЕ 1-2, причому контейнер розширення додатково включає керуючі дані відсутніх гармонік, що підлягають використанню, коли параметр режиму 60 вставки латки дорівнює другому значенню.

ЕЕЕ4. Спосіб за будь-якому попереднім ЕЕЕ, причому закодований бітовий потік аудіо додатково включає елемент наповнення з ідентифікатором, що вказує початок елемента наповнення, і даними наповнення після ідентифікатора, причому дані наповнення включають контейнер розширення.

ЕЕЕ5. Спосіб за ЕЕЕ 4, причому ідентифікатор являє собою трибітне ціле число без знаку зі старшим бітом, що передається першим, і має значення Ох6б.

ЕЕЕб. Спосіб за ЕЕЕ 4 або ЕЕЕ 5, причому дані наповнення включають навантаження розширення, навантаження розширення включає дані розширення реплікації спектрального діапазону, і навантаження розширення ідентифікується першим чотирибітним цілим числом без знаку зі старшим бітом, що передається першим, і що має значення "1101" або "1110", і, опційно, причому дані розширення реплікації спектрального діапазону включають: опційний заголовок реплікації спектрального діапазону, дані реплікації спектрального діапазону після заголовка, і елемент розширення реплікації спектрального діапазону після даних реплікації спектрального діапазону, і причому мітка включена в елемент розширення реплікації спектрального діапазону.

ЕЕЕ7. Спосіб за будь-яким одним з ЕЕЕ 1-6, причому метадані високочастотного відновлення включають коефіцієнти масштабування обвідної, коефіцієнти масштабування рівня власних шумів, інформацію часової/частотної сітки або параметр, який вказує частоту переходу.

ЕЕЕ8. Спосіб за будь-яким одним з ЕЕЕ 1-7, причому фільтрація виконується банком фільтрів аналізу, який включає фільтри аналізу, Нк(п), які являють собою модульовані версії тов е ві вда тиня

М 2 2/) ОхпаиМ. «Кам. де ро(п) являє собою речово-значний симетричний або асиметричний фільтр-прототип, М являє собою кількість каналів в банку фільтрів аналізу, і М являє собою порядок фільтра- прототипу.

ЕЕЕ9. Спосіб за ЕЕЕ 8, причому фільтр-прототип, ро(п), виводиться з коефіцієнтів Таблиці 4 в цьому документі.

ЕЕЕТ0. Спосіб за ЕЕЕ 8, причому фільтр-прототип, ро(п), виводиться з коефіцієнтів Таблиці

Зо 4 в цьому документі за допомогою однієї або більше математичних операцій, вибраних з групи, яка складається з округлення, субдискретизації, інтерполяції або прорідження.

ЕЕЕ11. Спосіб за будь-яким одним з ЕЕЕ 1-10, причому фазовий зсув додається у відфільтрований аудіосигнал в смузі низьких частот після фільтрації і компенсується перед комбінуванням, щоб зменшити складність способу.

ЕЕЕ12. Спосіб за будь-якому попереднім ЕЕЕ, причому контейнер розширення додатково включає мітку, яка вказує, чи використовується додаткова попередня обробка, щоб уникнути переривань в формі спектральної обвідної частини смуги високих частот, коли параметр режиму вставки латки дорівнює першому значенню, причому перше значення мітки включає додаткову попередню обробку, і друге значення мітки відключає додаткову попередню обробку.

ЕЕЕ13. Спосіб за ЕЕЕ 12, причому додаткова попередня обробка включає обчислення кривої попереднього посилення з використанням коефіцієнта лінійного фільтра прогнозу.

ЕЕЕТ4. Спосіб за будь-яким одним з ЕЕЕ 1-13, причому контейнер розширення являє собою зворотно сумісний контейнер розширення.

ЕЕЕ15. Спосіб за будь-яким одним з ЕЕЕ 1-14, причому закодований потік аудіо закодований відповідно до формату, і причому контейнер розширення являє собою контейнер розширення, який визначений щонайменше в одній успадкованій версії згаданого формату.

ЕЕЄЕ16. Нетимчасовий зчитуваний комп'ютером носій, яка містить інструкції, які при виконанні процесором виконують спосіб за будь-яким одним з ЕЕЕ 1-15.

ЕЕЕ17. Модуль обробки аудіо для виконання високочастотного відновлення аудіосигналу, причому модуль обробки аудіо сконфігурований, щоб виконувати спосіб за будь-яким одним з

ЕЕЕ 1-15.

Claims

ФОРМУЛА ВИНАХОДУ

55 1. Спосіб виконання високочастотного відновлення аудіосигналу, причому спосіб містить: прийом закодованого бітового потоку аудіо, причому закодований бітовий потік аудіо включає дані аудіо, що представляють частину смуги низьких частот аудіосигналу, і метадані високочастотного відновлення; декодування даних аудіо, щоб згенерувати декодований аудіосигнал в смузі низьких частот;

витягання із закодованого бітового потоку аудіо метаданих високочастотного відновлення, причому метадані високочастотного відновлення включають робочі параметри для процесу високочастотного відновлення, робочі параметри включають параметр режиму вставки латки, розташований в зворотно сумісному контейнері розширення закодованого бітового потоку аудіо, причому перше значення параметра режиму вставки латки вказує спектральне перенесення, і друге значення параметра режиму вставки латки вказує гармонічну транспозицію за допомогою розширення частоти фазового вокодера; фільтрацію декодованого аудіосигналу в смузі низьких частот, щоб згенерувати відфільтрований аудіосигнал в смузі низьких частот; регенерацію частини смуги високих частот аудіосигналу з використанням відфільтрованого аудіосигналу в смузі низьких частот і метаданих високочастотного відновлення, причому регенерація включає спектральне перенесення, якщо параметр режиму вставки латки має перше значення, і регенерація включає гармонічну транспозицію за допомогою розширення частоти фазового вокодера, якщо параметр режиму вставки латки має друге значення; і комбінування відфільтрованого аудіосигналу в смузі низьких частот з регенерованою частиною смуги високих частот для формування широкосмугового аудіосигналу.
2. Спосіб за п. 1, причому зворотно сумісний контейнер розширення включає керуючі дані зворотної фільтрації, що підлягають використанню, коли параметр режиму вставки латки дорівнює другому значенню.
3. Спосіб за п. 1, причому зворотно сумісний контейнер розширення додатково включає керуючі дані відсутніх гармонік, що підлягають використанню, коли параметр режиму вставки латки дорівнює другому значенню.
4. Спосіб за п. 1, причому закодований бітовий потік аудіо додатково включає елемент наповнення з ідентифікатором, який вказує початок елемента наповнення, і дані наповнення після ідентифікатора, причому дані наповнення включають зворотно сумісний контейнер розширення.
5. Спосіб за п. 4, причому ідентифікатор являє собою трибітне ціле число без знаку зі старшим бітом, що передається першим, і має значення Ох6.
б. Спосіб за п. 4, причому дані наповнення включають корисне навантаження розширення, Зо причому корисне навантаження розширення включає дані розширення реплікації спектрального діапазону, і корисне навантаження розширення ідентифікується за допомогою чотирибітного цілого числа без знаку зі старшим бітом, що передається першим, що має значення "1101"! або "7110, і, опційно, причому дані розширення реплікації спектрального діапазону включають: опційний заголовок реплікації спектрального діапазону, дані реплікації спектрального діапазону після заголовка, і елемент розширення реплікації спектрального діапазону після даних реплікації спектрального діапазону, і причому мітка включена в елемент розширення реплікації спектрального діапазону.
7. Спосіб за п. 1, причому метадані високочастотного відновлення включають коефіцієнти масштабування обвідної, коефіцієнти масштабування рівня власних шумів, інформацію часової/частотної сітки або параметр, який вказує частоту переходу.
8. Спосіб за п. 1, причому фільтрація виконується банком фільтрів аналізу, який включає фільтри аналізу, Нк(п), які являють собою модульовані версії фільтра-прототипу, ро(п), відповідно до: 75 як(п)- ро (пе М (к ни 5)" - 5)

Оп. ОеКаМ, де ро(п) являє собою речово-значний симетричний або асиметричний фільтр-прототип, М являє собою кількість каналів в банку фільтрів аналізу, і М являє собою порядок фільтра-прототипу.
9. Спосіб за п. 8, причому фільтр-прототип, ро(п), виводиться з коефіцієнтів Таблиці 4 в цьому документі.
10. Спосіб за п. 8, причому фільтр-прототип, ро(п), виводиться з коефіцієнтів Таблиці 4 в цьому документі за допомогою однієї або більше математичних операцій, вибраних з групи, яка складається з округлення, субдискретизації, інтерполяції або прорідження.
11. Спосіб за п. 1, причому фазовий зсув додається у відфільтрований аудіосигнал в смузі низьких частот після фільтрації і компенсується перед комбінуванням для зменшення складності способу.
12. Спосіб за п. 1, причому зворотно сумісний контейнер розширення додатково включає мітку, яка вказує, чи використовується додаткова попередня обробка, щоб уникнути переривань в формі спектральної обвідної частини смуги високих частот, коли параметр режиму вставки латки дорівнює першому значенню, причому перше значення мітки вмикає додаткову попередню обробку, і друге значення мітки вимикає додаткову попередню обробку.
13. Спосіб за п. 12, причому додаткова попередня обробка включає обчислення кривої попереднього посилення з використанням коефіцієнта лінійного фільтра прогнозу.
14. Нетимчасовий зчитуваний комп'ютером носій, який містить інструкції, які при виконанні процесором виконують спосіб за п. 1.
15. Модуль обробки аудіо для виконання високочастотного відновлення аудіосигналу, причому модуль обробки аудіо містить: вхідний інтерфейс для прийому закодованого бітового потоку аудіо, причому закодований бітовий потік аудіо включає дані аудіо, що представляють частину смуги низьких частот аудіосигналу, і метадані високочастотного відновлення; базовий декодер аудіо для декодування даних аудіо, щоб згенерувати декодований аудіосигнал в смузі низьких частот; блок розформатування для витягання із закодованого бітового потоку аудіо метаданих високочастотного відновлення, причому метадані високочастотного відновлення включають робочі параметри для процесу високочастотного відновлення, робочі параметри включають параметр режиму вставки латки, розташований в зворотно сумісному контейнері розширення закодованого бітового потоку аудіо, причому перше значення параметра режиму вставки латки вказує спектральне перенесення, і друге значення параметра режиму вставки латки вказує гармонічну транспозицію за допомогою розширення частоти фазового вокодера; банк фільтрів аналізу для фільтрації декодованого аудіосигналу в смузі низьких частот, щоб згенерувати відфільтрований аудіосигнал в смузі низьких частот; високочастотний регенератор для відновлення частини смуги високих частот аудіосигналу з використанням відфільтрованого аудіосигналу в смузі низьких частот і метаданих високочастотного відновлення, причому відновлення включає спектральне перенесення, якщо параметр режиму вставки латки має перше значення, і відновлення включає гармонічну транспозицію за допомогою розширення частоти фазового вокодера, якщо параметр режиму вставки латки має друге значення; і банк фільтрів синтезу для комбінування відфільтрованого аудіосигналу в смузі низьких частот з регенерованою частиною смуги високих частот для формування широкосмугового аудіосигналу. ож: зх х саму док вх я Бітовни потік МРЕОНЦААЄ КУ

Га . ї ! й УМХ З г З Ж в Е - МЕНЧЕВ она ПК ЕННК шк еВ ши ; оце й ШИ

Фіг. пен же й их с. . ше а Вхід зона, ХПОДУВаТИ оІНаповнювачлалокі БЕР І 0 Бітоннй потік й ши ; шк ШИ ши Ок нин а отв ї : нон чн . о ТЕНЕРАТР матадяних а

Фіг. 2 я ДОЮ я ЗО ї чи. о АК РУ С ім ЖЖ РІ КК МКК. М СМРАА АРР СЖЖММ Фото, КХ ЛАКАК ОРЕ ЕОММьВ ФФК. ЧАН СМММН МКМ ВР СССЮЮТ СНО, І АК Ов т соеЙнкнкхахвК мні ЖАН нК г позна пе 233 укриті те ЗЕ г ; в ДЕКОДЕРЬ пен т зп? ркнютотнсентноють Ї пест-пранесор з доооєатєюю сю З емо втю мк ь х дкоюнююююююююютемх у ; І син блок ; сидрчеутет З ! І й Я і НИ і ДОБА Во ей й А сні НО Її осн СКАЗ інв я жа З ! ні СЕ ОО 1розформає | вар В нн ГИ ШИ БАР. ; ! шт в шо ронний Я шк. : : - Ї ніснерніннацннннннй Метадані ЗЗОЯ 00 анна Р й ' Її : ще де ! - 7 вай і і жХики | о я я й зах | жі Її : : ско ; З ї

; к.--- с | : Х

Фіг. З ета БВ «КК ККкккетанКК Я с . З ко нковнс -Я 5 х й й о бл : ! і Ши ее сао ША ши 00 декоду. - ОпООдКа й ше му щЕ с Фоохеоф од Я осссее Й сяк Кесокюхесесоо до ЕНН дек сосквофввх ЕЗ К. З тування | ЩЕ Ки З І : жк Ї 5 т сур : ЕЗ щоб ще ;

Фіг. 4 о не мере ех й і ій я Як под мо ї нан, и На йо У етно ДУФЕР ще позформа- рев декаду і Вуде Б Ї неннювнюнсну і тування ек ї : ше ка КУ їх ; : ха Я пе ни ї овкеуту Її В З ААУ ня 5 дитя КК ї Б и ШЕ ік і і З 0 Коник одоожих і : Одно овк рних те ; їебка й 800 ЄЕСТЕНЕРАТЯ. ен : шо! херуючих Яитів соснового ЕЙ Е. Її І | : ни о и и нини її «ріг. 5 ї ооо мона їх ПАТ З ззулиме ї ; осокою ; -рї

Фіг. о

Елемент дного Елемент Ї наповнення Елемент с наповнення КНТУ як виш умессейктюктюс сю світ Косоюссююкю сс ост ЩЕ щН Щ. НН: ї

З і. З ШЕ: Н З і и ЗЕ НЕ ІІ х | а Н У І : ня Еш Двеан М ум Мітка ПКТ МИ кою ЕЯ злемсенІ я пав А НИ ЗАГОЛОВОК й ще -- ВАГОЛОВОКО Заголовок розширення ШОД у розширення зе . Кй Фіг: 7