RS20210527A1

RS20210527A1 - Sistem za inteligentnu obradu 3d zvuka

Info

Publication number: RS20210527A1
Application number: RS20210527A
Authority: RS
Inventors: Vladimir Šećerov; Radovan Danilovac; Jelena Nenadov
Original assignee: Secerov Vladimir
Priority date: 2021-04-29
Filing date: 2021-04-29
Publication date: 2022-10-31

Abstract

Pronalazak se odnosi na sistem za inteligentnu obradu 3D zvuka koji se sastoji od analognog ulaza (100) koji može biti mikrofon ili bilo koji muzučki instrument, zatim A/D konvertora (101) koji pretvara analogni audio signal u digitalni audio signal, servera (102) sa softverskim komponentama: softverska komponenta (103) vremenskog kašnjenja, softverska komponenta (104) frekventnog pomeraja, softverska komponenta (105) reverberacije, zatim kodera (106) i klijenta (108) sa dekoderom (109) i tri različita izlaza (110,111, 112), a koji kao novost ima sistem za inteligentnu obradu audio signala na način da server (102) sadrži softversku komponentu (107) - kontrolni menadžer koji je neuronska mreža između navedenog kodera (106) i dekodera (109) i ima ulogu u inteligentnoj obradi audio signala na način da dodatno poboljšava tačnost kodovanja i dekodovanja audio signala nakon čega je dekodirani izlazni signal poslat na jedan od izlaza i to na izlaz (110) slušalice, izlaz (111) slušalice sa žiroskopom ili izlaz (112) klasičan stereo sistem.

Description

Систем за интелигентну обраду 3D звука

Област технике на коју се проналазак односи

Проналазак се односи на просторну обраду аудио звука, обраду 3D звука на начин да слушалац има осећај да му звук долази из свих углова око њега као да је стварно присутан близу извора звука, на концерту нпр. или у студију за снимање.

Ознака према међународној класификацији патената (МКП) је: H04S7/304 и H04S7/302.

Технички проблем

Проблематика новине у репродукцији звука преко интернет платформи се своди на излазак из класичне стерео слике у 3D субјективни доживљај без примене посебно намењених система репродукције, тј. задржавањем на већ постојећим системима (у овом случају слушалице), без инвестирања у скупе 5.1 или 7.1 аудиофилске системе.

Досадашња решења говоре о интернет платформама о ширини звучног спектра који дозвољава да се емитује преко одређене платформе.На пример Youtube дозвољава компримовани 4К видео (H.264/MPEG-4 AVC) и ААС компримовани аудио. ААС је следбеник популарног МРЗ али ипак даје компримовани аудио садржај где донекле страдају пре свега ниске учестаности.

Проналазак решава овај проблем на начин да концерт прилагођава могућностима платформе и њених корисника. Еквализацијом је сваки посебни извор звука ограничен на део спектра који компресија неће одбацити. Резултат са проналаском је да се звук не гуши у компресији, и излази „живље". Ово није процес за квалитетнији и бољи звук на који смо навикли и који долази из постпродукције (скупе и дуготрајне), већ процес за бољи доживљај „живе свирке". Са проналаском се слушаоцу дочара простор у којем се концерт дешава, и самим тим га „увуче" у догађај. Пажљива употреба реверб ефекта на серверу додаје на интензитету доживљаја.

Стање технике

У досадашња решења спада KLANG технологија где се ручно помера позиција позицију нпр. певача по равни његовог кретања, тако да би се он (певач) својим кретањем по бини, буквално померао и у слици коју гледате. Звук би долазио са позиције где се извор звука (певач) тренутно налази. Доживљај као да пева тачно ту где се налази, у односу слика - слушалац. За разлику од ове технологије проналазак уводи додатну функционалност на серверској страни у виду интелигентног менаџера-неуронске мреже која ће додатно побољшати тачност кодовања и декодовања у зависности од клијентске стране, врсте уређаја и такође ће дати комбинацију три различите врсте сигнала на излазу што KLANG не ради.

Такође Texas Instruments Audio 3D processor TAS 3103, затим AMD TrueAudio, па заштићена решења патент US9560467B2 под насловом 3D immersive spatial audio systems and methods, објављен 2017-01-31, патентна пријава VV02016077320A1 под насловом 3d immersive spatial audio systems and methods објављена 2016-05-19, па патент US10841726B2 под насловом Immersive audio rendering објављен 2020-11-17 и патентна пријава ЕР3453190А1 под насловом Immersive audio reproduction systems објављена 2020-01-15 такође говоре о просторној, 3D обради аудио сигнала, али се начин реализације система разликује у односу на предложени проналазак.

Излагање суштине проналаска

Проналазак даје звук који се не гуши у компресији, и излази „живље". Ово није процес за квалитетнији и бољи звук на који смо навикли и који долази из постпродукције (скупе и дуготрајне), већ процес за бољи доживљај „живе свирке". Са проналаском се слушаоцу дочара простор у којем се концерт дешава, и самим тим га „увуче" у догађај. Пажљива употреба реверб ефекта на серверу додаје на интензитету доживљаја.

Проналазак описује нови систем за интелигентну обраду 3D звука који се састоји од аналогног улаза , A/D конвертора, сервера и клијента. Сервер саджи софтверске компоненте: временског кашњења, фреквентног помераја, реверберације, затим садржи кодер и интелигентну софтверску компоненту-менаџер који је неуронска мрежа која координише тачношћу кодоваа и декодовања у зависности од клијентске стране, типа клијентске стране. Клијент садржи декодер и три различита излаза излаза која дају три различита типа сигнала. Ова три излазна уређаја су: уређај са слушалицама, уређај са слушалицама и жироскопом и класичан стерео уређаја.

Новост проналаска се огледа у новом систему софтверско-хардверских компоненти за обраду 3D звука који уноси новину на серверској страни у виду неуронске мрежекоја контролише и додатно побољшава кодерско-декодерски део система и такође новост проналаска јесу три различите врсте сигнала које се добијају на излазу и омогућавају да се добијени ЗД звук слуша на слушалицама, затим слушалицама са жироскопом и обичном стерео уређају, мобилном телефону или ТВ апарату.

На серверу се поједини извори звука тако рећи смакну из равни стерео слике помоћу дилеј ефекта (кашњења), чиме се добија просторна дубина, тј. виртуални 3D ефекат.

За ово проналазак конкретно користи Digico С21 аудио конзолу, која сваки посебан сигнал (канал) може да помери у времену, тј. да дода вештачко кашњење (time delay). Концерт престаје да се налази у равни екрана, и излази ка слушаоцу. Као и на концерту на отвореном, примењују се панораме, реверб (ехо) и дилеј ефекти, не би ли се добило на доживљају да те звук „окружује" са свих страна, као и субјективни осећај да се налазиш у простору где је концерт. За овакав доживљај потребно је да слушалац користи слушалице, јер се фазни помераји самих сигнала не региструју из удаљених извора, тј. класичних звучника. Обрада звука на овај начин омогућава да се превари средње ухо и перцепција мозга, те се слушалац „урања" у доживљај (immersive mixing).

Кратак опис слика проналаска

Слика 1 приказује блок шему реализације система проналаска

Детаљан опис проналаска

Проналазак говори о новој технологији тзв. енг. immersive аудио која је нови вишедимензионални приступ аудио приповедању који слушаоце урања у проширено звучно поље које превазилази традиционални енг. surround звук. Иако „сурроунд звук" постоји у водоравној равни око слушаоца, „имерзивни звук" је дизајниран да произведе потпуно имерзиван доживљај где звук доживљава као да долази из свих крајева око вас.

Еволуција обраде аудио сигнала датира дубоко у прошли век када је технологија била уско повезана са снимањем и инжењерингом. Још педесетих и раних шездесетих година, многе песме и звучне снимке су снимљене и помешане у моно, што значи да је постојао само један аудио канал. Чак и да су постојала два звучника, обојица су свирали исту ствар. Није било могућности да се звук подели између десног и левог канала.

Затим је уследио прелазак на стерео. Одједном смо имали далеко веће звучно поље за рад, а аудио инжењери су то искористили.

Данас је доступно све више постава са додатним звучницима. 5.1 и 7.1 су прилично чести и ове системе можете релативно лако добити у свом дому. Постоје бројне конфигурације звучника и они могу имати своје аудио миксеве које пружају инжењери како би створили све уживљавајуће искуство. На пример, могли бисте да имате један канал који садржи само један звучни ефекат или ударну нумеру, тако да долази из једног правца, док други инструменти изгледају као да долазе из других.

Сада је имерзивни звук додао још једну димензију: висину. Звукови могу да буду дизајнирани не само да вас нападају лево или десно, већ одозго и одоздо - и са бесконачног броја тачака. Долби Атмос је један од најпопуларнијих (и растућих) имерзивних аудио формата и није ограничен на било које одређено подешавање звучника. Импресивни аудио албум снимљен и произведен у Долби Атмос-у може се репродуковати помоћу до 34 звучника.

Такође поред Долбија и MPEG-H заузима значајно место у обради аудио сигнала. То је отворен аудио стандард, намењен генерисању потпуне 3D аудио слике. Његова примена је у системима за забаву као што су кућни биоскопи, уређаји за виртуелну реалност, аудио/видео пријемници, итд. Примена на овим уређајима омогућава биоскопски доживљај звука чак и у кућним условима. Односно, слушалац стиче утисак као да је звук свуда око њега, налик природном звуку који нас окружује. У контексту звука који имитира онај из стварног окружења, дефинишу се појмови као што су вишеканални окружујући звук и ЗД звук. ЗД звук обухвата читаву сферу те се стиче утисак да је звук свуда око слушаоца. Он је најприближнији реалном звуку.

Од самог развоја технологије за забаву (ТВ, радио, рачунари, паметни телефони...) човек има потребу да прикаже звучне и визуелне сигнале што верније онима из окружења, односно да на неки начин направи имитацију реалности. Још у прошлом веку постојали су забавни паркови у којима су постојале атракције које се базирају на ЗД аудио принципима. У Волт Дизнијевом студију у Холивуду је, такође, постојао је покушај да се звук летења бумбара учини као да долази изнад публике, али је експериментална примена била неуспешна. Године 1967. позната група Пинк Флоуд је одржала први концерт са окружујућим звуком.

На основу уводног дела, а пре описа система проналаска значајно је нагласити неке појмове који ће бити наведени у систему проналаска као генералне компоненте и саставни делови сваког сличног система.

На самом почетку као извор звука система проналаска користи се микрофон који је електроакустички претварач који претвара акустичку енергију у електричну.

Данас се користе динамички и кондезаторски који се међусобно разликују по: карактеристици усмерености, фреквенцијском опсегу, осетљивости , максималном звучном притиску, и односу сигнал/шум .

Микрофони се деле на акустичке и електричне. Електрични микрофони се деле на динамичке и кондезаторске.

Данашње снимање звука се обавља помоћу рачунара који је заменио старе аналогне снимаче (магнетофоне). Користи се рачунар који ради у реалном времену и који са великом процесорском снагом и меморијом може успешно да се носи са постављеним задацима. Поред рачунара потребан је и софтвер у коме се музика снима и снимљени подаци даље обрађују. Проналазак овај део имплементира на серверској страни јер се улазни аудио сигнал обрађује путем рачунара и софтвера на серверу. Софтвер је имплементиран у виду софтверских компоненти за кашњење, фреквентни померај и реверберацију, а додатно сервер има кодер и контролни менаџер, софтверску компоненту која је имплементирана неуронска мрежа за бољу координацију између клијентске стране и серверске, односно тачније кодовање и декодовање у зависности од типа излазнх уређаја.

Обрада сигнала на серверској страни-рачунару се одвија преко: фреквенцијеске обраде сигнала, временске обраде сигнала и динамичке обраде сигнала. Филтри и еквилајзери фреквенцијски обрађују сигнал, временски га обрађују компоненте делау (кашњења), реверберације (одјека) итд. Док динамику карактерише компресија нпр., затим елиминација шума и др.

Реверберација, време реверберације се дефинише као време које је потребно да интензитет звука опадне на милионити део од његовог оригиналног интензитета, односно опадне за 60 dB. Време реверберације зависи од акустичких услова у студију. Оптимално време реверберације у студију је од 0,2 до 0,4 s.

Реверберација подразумева да је створено дифузионо звучно поље, тј. да се звук одбио више пута од рефлектујућих површина, тако да се слушалац налази у „густом" звучном простору. Генерално говорећи, можемо сматрати да се такво поље формира након 20 - 50 ms од почетног импулса.

Мањи простори захтевају мање реверберације да би могао да буде остварен одговарајући однос директног и рефлектованог звучног поља, док већим просторима треба и већа реверберација да би могли да „обезбеде" адекватну гласноћу звука на месту на којем се налази слушалац.

Уређаји за вештачку реверберацију су комлексни електронски склопови, чији се принцип рада базира на временском кашњењу сигнала. Наиме, одређени број рефлексија основног сигнала се симулира линијом за кашњење, а онда се врши њихово међусобно „комбиновање' и процесирање по задатом алгоритму. Дакле, у самој основи овог уређаја се налази временско кашњење сигнала, тзв. „time delay".

На Слици 1 описан је систем хардверско-софтверских компоненти проналаска.

Систем за интелигентну обраду 3D звука који се састоји од аналогног улаза 100 који може бити микрофон или било који музучки инструмент, затим A/D конвертора 101 који претвара аналогни аудио сигнал у дигитални аудио сигнал, сервера 102 са софтверским компонентама: софтверска компонента 103 временског кашњења, софтверска компонента 104 фреквентног помераја, софтверска компонента 105 реверберације, затим кодера 106 и клијента 108 са декодером 109 и три различита излаза 110,111 и 112.

Сервер 102 садржи софтверску компоненту 107- контролни менаџер који је неуронска мрежа између наведеног кодера 106 и декодера 109 и има улогу у интелигентној обради аудио сигнала на начин да додатно побољшава тачност кодовања и декодовања аудио сигнала у зависности од врсте излазних уређаја 110,111 и 112. Излазни сигнал са сервера је кодован 3D сигнал у зависности од типа уређаја на излазу 110, 111 и 112.

Тај сигнал са сервера се на клијентској страни декодује и тако декодован 3D аудио сигнал се шаље на излаз 110 уређаја са слушалицама, излаз 111 уређаја са слушалицама и жироскопом и класичан стерео уређај 112, ТВ или мобилни телефон.

Неуронска мрежа софтверске компоненте 107 контролног менаџера на серверу 102 представља софтверски део наведеног система који комуницира са кодером 106 и декодером 109 на начин да подешава додатно аудио сигнал у зависности од типа уређаја на клијентској страни 110, 111 или 112<.>

Улазни аналогни сигнал 100 је аудио сигнал који се добија са микрофона или музичког инструмента.

Начин индустријске или друге примене проналаска

Систем је намењен за позоришне представе, концерте класичне музике, итд.

Посебан сегмент представља примена у терапеутске сврхе, преноса природних звукова (таласи на плажи, падање кише, цвркут птица у шуми и сл.).

Claims

Патентни захтеви:

1. Систем за интелигентну обраду 3D звука који се састоји од аналогног улаза 100, A/D конвертора 101, сервера 102 са софтверским компонентама: софтверска компонента 103 временског кашњења, софтверска компонента 104 фреквентног помераја, софтверска компонента 105 реверберације, затим кодера 106 и клијента 108 са декодером 109 и три излаза 110,111 и 112 карактерисан тиме да наведени сервер (102) садржи софтверску компоненту (107)- контролни менаџер који је неуронска мрежа између наведеног кодера (106) и декодера (109) и која има улогу у интелигентној обради аудио сигнала на начин да додатно побољшава тачност кодовања и декодовања аудио сигнала у зависности од типа уређаја (110,111 и 112) на излазу, након чега се декодован аудио сигнал шаље на излаз (110) уређаја са слушалицама, излаз (111) уређаја са слушалицама и жироскопом и класичан стерео уређај (112).

2. Систем на основу захтева 1, карактерисан тиме да је класичан стерео уређај (112) мобилни телефон или ТВ апарат.

3. Систем на основу захтева 1, карактерисан тиме да наведена неуронска мрежа софтверске компоненте (107) контролног менаџера на серверу (102) представља софтверски део наведеног система који комуницира са кодером (106) и декодером (109) на начин да подешава додатно аудио сигнал у зависности од типа уређаја на клијентској страни (110, 111 или 112).

4. Систем на основу захтева 1, карактерисан тиме да је улазни аналогни сигнал (100), аудио сигнал који се добија са микрофона или музичког инструмента.

Потпис подносиоца пријаве