RS49875B - Sistem i postupak za slobodnu govornu komunikaciju pomoću mikrofonskog niza - Google Patents

Sistem i postupak za slobodnu govornu komunikaciju pomoću mikrofonskog niza

Info

Publication number
RS49875B
RS49875B RSP-2006/0551A RSP20060551A RS49875B RS 49875 B RS49875 B RS 49875B RS P20060551 A RSP20060551 A RS P20060551A RS 49875 B RS49875 B RS 49875B
Authority
RS
Serbia
Prior art keywords
signal
speaker
microphone
speech
adaptive
Prior art date
Application number
RSP-2006/0551A
Other languages
English (en)
Inventor
dr. Zoran Šarić
dr. Slobodan Jovičić
dr. Vladimir Kovačević
dr. Nikola Teslić
dr. Dragan Kukolj
Original Assignee
Micronasnit,
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Micronasnit, filed Critical Micronasnit,
Priority to RSP-2006/0551A priority Critical patent/RS49875B/sr
Publication of RS20060551A publication Critical patent/RS20060551A/sr
Priority to PCT/RS2007/000017 priority patent/WO2008041878A2/en
Publication of RS49875B publication Critical patent/RS49875B/sr

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • G01S3/8006Multi-channel systems specially adapted for direction-finding, i.e. having a single aerial system capable of giving simultaneous indications of the directions of different signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/142Constructional details of the terminal equipment, e.g. arrangements of the camera and the display
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/44Receiver circuitry for the reception of television signals according to analogue transmission standards
    • H04N5/445Receiver circuitry for the reception of television signals according to analogue transmission standards for displaying additional information
    • H04N5/45Picture in picture, e.g. displaying simultaneously another television channel in a region of the screen

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Telephone Function (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

Sistem za slobodnu govornu komunikaciju pomoću mikrofonskog niza koji sadrži digitalni TV prijemnik koji omogućava audio i video komunikaciju u punom dupleksu karakterisan time što digitalni TV prijemnik (100) ima stereo audio reprodukciju (102) za reprodukovanje stereo TV programa i mono dolaznog govornog signala u videotelefonskoj komunikaciji, koji ima ugrađenu pokretnu video kameru (l04) za snimanje govornika u prostoriji i koji na delu svog ekrana reprodukuje sliku sagovornika sa udaljenog kraja (105); koji sadrži mikrofonski sistem (103) ugrađen u TV prijernnik (100) čija je namena snimanje govora govornika na bliskom kraju kao i ostalih ambijentalnih zvukova i čija je namena lociranje govornika u prostoriji i upravljanje video kamerom (104).

Description

OBLAST TEHNIKE NA KOJU SE PRONALAZAK ODNOSI
Pronalazak pripada oblasti obrade akustičkog signala, ili konkretnije, metodama poništavanja akustičkog eha, prostornog selektovanja i lociranja govornika u reverberantnom akustičkom ambijentu i potiskivanja šuma primenom mikrofonskog niza.
TEHNIČKI PROBLEM
Slobodni, "hands-free" (engl.), komunikacioni sistemi za prenos govornog signala u punom dupleksu koriste se u mnogim aplikacijama kao što su: video-telefonski sistemi, telekonferencijski sistemi, spikerfoni u prostoriji ili kolima, komunikacija čovek-računar putem glasa, itd. "Hands-free" govorna komunikacija podrazumeva da se govornik nalazi u akustičkom ambijentu na određenoj distanci od interfejsnih elemenata sistema - mikrofona i zvučnika. Ovakvi us lovi odvijanja govorne komunikacije generišu više tehničkih problema koje je potrebno resiti da bi se održao kvalitet komunikacije na prihvatljivom nivou.
Osnovni problem jeste akustički eho koji nastaje prenosom dela akustičke energije iz zvučnika u mikrofon tako da sagovornik na udaljenom kraju čuje sopstveni glas kao smetnju. Konvencionalno, poništavanje signala eha obavlja adaptivni filtar estimiranjem prenosne funkcije akustičkog puta između zvučnika i mikrofona, tako da se na njegovom izlazu dobija približno isti signal kao što je signal akustičkog eha. Oduzimanja ova dva signala se poništava akustički eho. Međutim, poništavanje eha ne može biti idealno zbog nelinearnosti sistema i nestacionarnosti akustičkog ambijenta. Kao rezultat pojavljuje se rezidualni signal eha. Pri tome ostaje osnovni zahtev da snimljeni govorni signal na bližem kraju ne srne biti izobličen primenom postupka potiskivanja eha.
U akustičkom ambijentu akustičke smetnje mogu biti različite prirode i uzroka. One mogu biti stacionarne i nestacionarne (na primer kao što su šum računara ili buka u automobilu) i poticati ođ više izvora lociranih na različitim pozicijama u prostoru gde se nalazi govornik. Pored toga u zatvorenim prostorima (radne sobe, sale, automobilska kabina) pojavljuje se efekat reverberacije, koji se manifestuje kao difuzna smetnja. Pošto se govornik najčešće nalazi u ovakvom ambijentu onda se mora izvršiti njegova separacija od ostalih izvora smetnji kako bi se omogućilo samo njegovo snimanje. Konvencionalno, ovaj problem se rešava primenom mikrofonskog niza koji se sastoji od više mikrofona poredanih na minimalnoj međusobnoj distanci. Određena konfiguracija mikrofona omogućava dobijanje sistema sa usmerenom karakteristikom osetljivosti. Ovakav mikrofonski sistem ima dovoljno uzanu karakteristiku usmerenosti da u prostom ambijenta može snimiti samo odabranog govornika dok ostale izvore smetnji koji se nalaze na drugim pozicijama (lokacijama) može potisnuti i time ostvariti dobitak u odnosu izabrani govornik - ostale smetnje. Veličina ovog dobitka zavisi ođ: karakteristike usmerenosti mikrofonskog niza (širine osnovne petlje), veličine bočnih petlji, separabilnosti govornika i izvora smetnji (da nisu suviše blizu), veličine reverberacije, nestacionarnosti svih izvora signala, itd.
Određivanje pravca u prostoru na kome se nalazi izabrani govornik i usmeravanje karakteristike usmerenosti mikrofonskog niza ka njemu jeste važan problem u "hands-free" komunikacionim sistemima. Postupci određivanja pravca su veoma osetljivi na sve smetnje prisutne u ambijentu i posebno: na nestacionarnost izabranog govornika (kada se on kreće u ambijentu) i kada se u datom ambijentu nalazi više govornika koji istovremeno govore( cocktail- partyefekat). Određivanje pravca aktuelnog govornika u odnosu na mikrofonski niz u horizontalnoj ravni je veoma važno u video-telefonskim i telekonferencijskirn sistemima, jer je neophodno odrediti koordinate za kontrolu video kamere.
Kod snimanja govora u akustičkom ambijentu uvek se pojavljuje problem aditivnog stacionarnog i/ili nestacionarnog šuma kao i rezidualnog šuma u obradi akustičkog signala. Ovi šumovi degradiraju kvalitet snimljenog govornog signala a ukoliko su dovoljno intenzivni mogu izazvati i narušavanje njegove razumljivosti. Postoji mnogo algoritama za potiskivanje šuma, optimiziranih za pojedine vrste šumova, ali se uvek postavlja zahtev da se ostvari određen dobitak u poboljšanju odnosa signal/šum pod uslovom da se ne unesu izobličenja u govorni signal i time dodatno ne naruši njegova razumljivost.
Promenljivi ambijentalni uslovi i posebno, promenljivo rastojanje govomik-mikrofonski niz, zahtevaju automatsku kontrolu pojačanja sistema kako bi nivo glasa govornika bio što stabilniji i prijatniji za slušaoca na udaljenom kraju telekomunikacionog kanala. Automatska kontrola pojačanja u sistemima koji rade u punom dupleksu zahteva dodatne informacije od detektora aktivnosti govora na bližem kraju, detektora aktivnosti govora na daljem kraju kao i potiskivača akustičkog eha.
Iz izloženog se vidi da su tehnički problemi u rešenju slobodnog, "hands-free", komunikacionog sistema za prenos govornog signala u punom dupleksu i njegovu primenu u video-telefonskim i/ili telekonferencijskirn sistemima veoma složeni i da zahtevaju integralni pristup u optimizaciji rešenja, posebno kada se ima u vidu rad sistema u realnom vremenu na bazi komercijalne platforme digitalnog procesora signala
(DSP).
STANJE TEHNIKE
Kvalitetno snimanje govora u uslovima prisustva akustičkih smetnji i reverberacije prostorije predstavlja složen problem. U uslovima kada se spektri korisnog govornog signala preklapaju sa spektrima prisutnih smetnji, jednokanalnim postupcima obrade nije moguće ostvariti značajnije poboljšanje kvaliteta govornog signala. Sa razvojem digitalne obrade signala i postizanjem dovoljno velike računarske snage DSP-a otvoren je put za primenu višemikrofonskih postupaka obrade akustičkih signala. Prednost mikrofonskih nizova u odnosu na jednokanalne postupke obrade je njihova sposobnost da prilagode svoju prostomu karakteristiku prijema (karakteristiku usmerenosti) trenutnom prostornom rasporedu odabranog govornika i smetnji. Pri tome ostvaruju maksimalno potiskivanje prisutnih smetnji uz istovremeno isticanje odabranog govornika. Osnovni problemi koji se u primeni mikrofonskih nizova sreću su sledeći (M.S. Brandstein, D.B. Ward (Eđs.),Microphone Arrays: Signal Processing Techniques and Applications,Springer, Berlin 2001; Y. Huang, J. Benestv,Audio signal processing far next generation multimedia communication systems,Kluvver Academic Publishers Publ., 2004.): nepoznavanje tačne lokacije odabranog govornika, nepoznavanje broja i prostornog rasporeda prisutnih smetnji, višestruke refleksije korisnog izvora i smetnji o zidove prostorije i nestacionarnost izvora akustičkih smetnji i odabranog govornika.
Kada se mikrofonski niz upotrebi u video-telefonskim ili telekonferencijskirn sistemima koji funcionišu u punom dupleksu, onda se broj problema uvećava. Najveći problem je pojava akustičkog eha, zatim potreba za automatskom regulacijom pojačanja
(AGC) predajnog dela sistema, kao i moguća pojava nestabilnosti sistema, tzv. mikrofonija. Dodatni problem koji ovaj patent razmatra je postojanje signala TV programa koji se kao aditivni akustički eho pojavljuje na ulazu mikrofonskog niza.
Veliki broj navedenih problema generisao je veoma različita rešenja koja su patentirana i koja rešavaju ili pojedinačne probleme ili integralno nekoliko problema. Naprimer: U.S. objavljena patentna prijava 2006/0153360 Al, prijavljen 2. septembra 2005., sa naslovom „Speech signal processing with combined noise reduction and echo compensation", daje integralno rešenje potiskivača eha i potiskivača šuma, zatim U.S. patent 7,035,415 B2, prijavljen 15. maja 2001, sa naslovom „Method and device for acoustic echo cancellation combined with adaptive beamforming", koji daje integralno rešenje potiskivača eha i rešenje za formiranje usmerene karakteristike mikrofonskog niza, zatim EP objavljena patentna prijava 1 633 121 Al, prijavljen 3. septembra 2004., sa naslovom „Speech signal processing with combined adaptive noise reduction and adaptive echo compensation", daje integralno rešenje potiskivača rezidualnog eha i potiskivača šuma, zatim EP objavljena patentna prijava l 571 875 A2, prijavljen 23. februara 2005., sa naslovom „A svstem and method for beamforming using a microphone array", koji daje rešenje samo za formiranje usmerene karakteristike mikrofonskog niza, zatim EP objavljena patentna prijava 1 581 026 Al, prijavljen 17. marta 2004., sa naslovom „Method for detecting and reducing noise trom a microphone array", daje rešenje samo za potiskivanje šuma u mikrofonskom nizu, kao i EP objavljena patentna prijava 1 286 175 A2, prijavljen 1. avgusta 2002,, sa naslovom „Robust talker localization in reverberant environment", daje rešenje samo za lokalizaciju govornika u reverberantnoj sobi.
Integralno rešenje svih naznačenih problema, izloženo u ovom patentu, objedinjuje pozitivne osobine pojedinih postupaka obrade signala u rešenju svakog od naznačenih problema, integralno ih rešava u frekvencijskom domenu optimizirajući računarske resurse i daje rešenje koje u realnom vremenu obezbeđuje kvalitetnu slobodnu govornu komunikaciju u video-telefonskim i/ili telekonferencijskirn sistemima.
IZLAGANJE SUŠTINE PRONALASKA
Predmet ovog pronalaska je sistem za slobodnu govornu komunikaciju u video-telefonskim ili telekonferencijskirn primenama koji koristi mikrofonski niz i složenu 5 obradu akustičkog signala u cilju obezbeđenja kvaliteta i razumljivosti govornog signala u složenom akustičkom ambijentu i u kome su mnogi prethodno nabrojani nedostaci pojedinačno ili integralno eliminisani.
Sistemom, koji je predmet pronalaska, prenosi se govor a kao prenosni medijum se koristi digitalna televizija. Za snimanje i reprodukciju govornog signala koristi se mikrofonski niz i zvučnici, respektivno, koji su sastavni elementi TV prijemnika. Pošto je reč o video-telefonskim ih telekonferencijskirn primenama, za snimanje i reprodukciju slike koristi se digitalna kamera i digitalni TV prijemnik, respektivno.
Suština pronalaska jeste u specifičnoj obradi govornog signala koji se snima u akustičkom ambijentu prostorije u kojoj se nalazi sistem i govornik. Za snimanje govornika u prostoriji, koji se nalazi na određenom rastojanju (do nekoliko metara) od TV prijemnika, sistem koristi mikrofonski niz od N mikrofona. Mikrofonski niz snima sve signale u prostoriji: koristan signal kao direktan talas koji stiže od govornika do mikrofona i signale smetnji koji mogu biti raznovrsni. Kao signali smetnje pojavljuju se: akustički eho kao direktan zvučni talas iz zvučnika preko kojih se emituje glas sagovomika sa udaljenog kraja komunikacionog kanala, akustički eho kao direktan zvučni talas iz zvučnika preko kojih se emituje stereo TV program, direktni talasi od jednog ili više izvora šumova ili izvora drugih smetnji koji se mogu naći u prostoriji i svi reflektovani talasi (eho prostorije) koji potiču od svih izvora zvukova, uključujući i govornika, a koji nastaju usled reverberacije prostorije. Treba naglasiti da izvori zvukova u prostoriji mogu biti stacionarni ili nestacionarni, što je najčešći slučaj, kako po svojim karakteristikama tako i po lokaciji u prostoriji (pokretni izvori zvukova).
Različite smetnje zahtevaju različite tehnike za njihovo eliminisanje i suština pronalaska jeste u optimalnom projektovanju algoritama koji treba da maksimalno eliminišu smetnje i da obezbede najbolji kvalitet govornog signala koji se prenosi do sagovomika na udaljenom kraju komunikacionog kanala.
Mikrofonski signali iz mikrofonskog niza se obrađuju u digitalnoj formi u DSP, kompletno u frekvencijskom domenu. Ovaj domen omogućava određene prednosti u pogledu brzine obrade i broja računskih operacija, što je veoma važno za DSP i rad u realnom vremenu. Za potiskivanje akustičkog eha neophodno je da se u DSP uvedu i signali iz zvučnika.
U DSP-u se izvršava više složenih algoritama: algoritam za potiskivanje signala akustičkog eha (AEC- Acoustic Echo Cancelling),algoritam za obradu mikrofonskih signala u cilju formiranja adaptivne karakteristike usmerenosti mikrofonskog niza
(ABF - Adaptive Beam Forming),algoritam za ocenu pravca dolaska korisnog signala(DOA - Direction of Arrival)odnosno lociranje govornika u prostoriji, algoritam za potiskivanje stacionarnog i nestacionarnog šuma i rezidualnog eha( NR- Noise Reduction)i algoritam za automatsku kontrolu pojačanja sistema(AGC - Automatic Gain Control)radi kompenzacije različite udaljenosti govornika od mikrofonskog niza. Pored ovih osnovnih algoritama u DSP-u se izvršava i više drugih algoritama kao što su: detektor aktivnosti govora (VAD -Voice Activated Detector)na bližem kraju, VAD na daljem kraju, detektor istovremene aktivnosti govora na oba kraja(DTD - Double Talk Detector),dodatno filtriranje radi redukcije šuma(PF - Post Filtering),itd. Cilj svih navedenih algoritama je maksimalna redukcija svih smetnji uz minimalnu degradaciju govornog signala i time obezbeđivanja maksimalnog kvaliteta predajnog govornog signala.
Specifičan aspekt pronalaska se nalazi u adaptivnom potiskivanju akustičkog eha pomoću adaptivnih filtara koji modeliraju prenosnu karakteristiku akustičkog puta od zvučnika do mikrofona. Prenosna karakteristika je složena jer se radi o prenosnom putu od 2 (stereo) zvučnika do N mikrofona u mikrofonskom nizu, zbog čega se svaki mikrofonski signal filtrira sopstvemm adaptivnim filtrom. Kontrolu rada adaptivnih filtara vrši detektor aktivnosti govora na oba kraja.
Sleđeću specifičnost pronalaska čini adaptivna karakteristika usmerenosti mikrofonskog niza koja omogućava prostorno ifltriranje, odnosno izdvajanje pravca u prostoru na kome se nalazi govornik i gde se koristan signal maksimalno pojačava u odnosu na signale iz ostalih pravaca koji se slabe. Usmerena karakteristika mikrofonskog niza se ostvaruje adaptivnim ponderisanjem i sumiranjem mikrofonskih signala, što obezbeđuje stabilan indeks usmerenosti u frekvencijskom domenu i veću robusnost sistema za slobodnu govornu komunikaciju u reverberantnom akustičkom ambijentu.
Određivanje dolaznog pravca direktnog akustičkog talasa od govornika je naredna specifičnost pronalaska. Ova funkcija u sistemu slobodne govorne komunikacije je neophodna za kontrolu i upravljanje usmerenom karakteristikom mikrofonskog niza po azimutu, a može se koristiti i za kontrolu i upravljanje video kamere. Ona koristi mikrofonske signale posle potiskivanja akustičkog eha. Nakon određivanja generalizovane kroskorelacije mikrofonskih signala i njihovih faznih transformacija, estimira se dolazni pravac direktnog akustičkog talasa govornika. Ova funkcija je pod direktnom kontrolom detektora aktivnosti govora.
Sleđeću specifičnost pronalaska čini postupak adaptivnog potiskivanja stacionarnog i nestacionarnog šuma. Postupak je realizovan na bazi nelinearnog kompresora estimiranog šuma koji se određuje u nekoliko podopsega. Koriste se dve estimacije šuma koje obezbeđuju rezultat potiskivanja optimiziran prema karakteristikama govornog signala. To je učinjeno iz razloga potrebe da proces adaptivnog potiskivanja šuma ne sme degradirati govorni signal. Proces filtriranja se završava adaptivnim Wiener-ovim post-filtrom.
Specifičan aspekt pronalaska jeste i automatska kontrola pojačanja govornog signala pre predaje ka udaljenom sagovorniku. Ova specifičnost je važan sastavni elemenat sistema za slobodnu govornu komunikaciju. Sistem obezbeđuje kompenzaciju različitih intenziteta govornog signala, kao individualnih karakteristika govornika, ah i različite intenzitete govora u zavisnosti da li se govornik nalazi bliže ili dalje u odnosu na mikrofonski niz. Rešenje pravi razliku da li je govornik aktivan ili se u korisnom signalu pojavljuje: pauza, rezidualni eho, akustička smetnja ili signal govora sa udaljenog kraja; zbog toga rešenje koristi više informacija prethodno detektovanih u sistemu. Analiza mogućeg scenarija mora biti pouzdana, u protivnom može doći do negativnog efekta slabljenja korisnog govornog signala.
Inventivnost u ovom pronalasku se nalazi u poboljšanju svake ođ navedenih specifičnosti, ali i u postupku integrisanja svih algoritama u jedinstvenu celinu koja funkcioniše stabilno i kvalitetno. Algoritamske procedure su optimizirane korišćenjem zajedničkih resursa.
Ovi i drugi aspekti, specifičnosti i benefiti ovog pronalaska biće očigledniji nakon uvida u detaljan opis pronalaska, patentne zahteve i pripadajuće crteže.
KRATAK OPIS SLIKA I NACRTA
Slika 1- prikazuje elemente sistema za slobodnu video-telefonsku komunikaciju pomoću mikrofonskog niza i digitalne televizije.
Slika2 - prikazuje ambijentalne uslove primene sistema za slobodnu video-telefonsku komunikaciju pomoću mikrofonskog niza.
Slika3 - prikazuje blok dijagram pođsistema za obradu audio signala u okviru sistema za slobodnu video-telefonsku komunikaciju; on sadrži mikrofonski niz sa adaptivnom karakteristikom usmerenosti (SD-BF), blok za lociranje govornika u prostoru (DOA), blok za potiskivanje eha (AEC), blok za potiskivanje šuma (NR) i blok za automatsku kontrolu pojačanja (AGC).
Slika 4- prikazuje blok dijagram za potiskivanje akustičkog eha (AEC).
Slika 5- prikazuje blok dijagram za adaptivno određivanje pravca bliskog govornika po horizontali (DOA-azimut).
Slika 6- prikazuje blok dijagram za prostorno filtriranje (SD-BF).
Slika7 - prikazuje blok dijagram za potiskivanje šuma (NR).
Slika8 - prikazuje blok dijagram za automatsku regulaciju pojačanja (AGC).
DETALJAN OPIS PRONALASKA
Ovaj pronalazak opisuje sistem i postupak obrade akustičkog signala za slobodnu govornu komunikaciju pomoću mikrofonskog niza.
Slika 1 prikazuje elemente sistema za slobodnu video-telefonsku komunikaciju pomoću mikrofonskog niza i digitalne televizije. Digitalni televizor100,koji korisniku normalno služi za praćenje TV programa, u sistemu za slobodnu video-telefonsku komunikaciju koristi se kao video monitor za video komunikaciju sa sagovornikom i kao audio terminal za audio komunikaciju. Naime, kada se putem komunikacionog kanala101dobije poziv i uspostavi veza sa sagovornikom tada se televizor100koristi kao multimedijalni interfejs gde se preko zvučnika102sluša sagovornik a na delu ekrana105televizora100prati se slika sagovomika. Istovremeno, na udaljenom kraju komunikacionog kanala, sagovornik na sličnom TV prijemniku vidi sagovomika sa bližeg kraja, koga snima kamera104i mikrofonski niz103.Kamera104je pokretna i njom se upravlja na bazi koordinata koje se dobijaju obradom mikrofonskih signala iz mikrofonskog niza103.
Analogni signali iz mikrofona u mikrofonskom nizu103se pojačavaju pomoću pojačavača106i zajedno sa stereo signalima iz zvučnika102se uvode u akvizicioni modul107,gde se digitalizuju i tako digitalizovani predaju DSP-u108na dalju obradu. Obrađeni govorni signal govornika na bližem kraju pomoću DSP-a108prenosi se preko komunikacionog kanala101do sagovomika na daljem kraju. Obradom akustičkih signala u DSP-u108dobijaju se prostome koordinate lociranja govornika u prostoriji u kojoj se nalazi sistem za slobodnu komunikaciju, pomoću kojih DSP108upravlja sa pokretnom kamerom 104 usmeravajuću je ka govorniku. Na taj način se ostvaruje potpuno slobodna audio i video komunikacija dva sagovomika preko sistema digitalne televizije.
Slika 2 šematski prikazuje ambijentalne uslove primene sistema za slobodnu video-telefonsku komunikaciju pomoću mikrofonskog niza; prikazan je samo deo sistema koji se odnosi na obradu akustičkog signala. U prostoriji 201 nalaze se sistem za slobodnu video-telefonsku komunikaciju, govornik 202 i izvor šuma 203, što je uobičajeno za svaki akustički ambijent. Preko zvučnika 102 stereo audio sistema digitalne televizije govornik 202 sluša dolazni govorni signal 204 sagovomika sa udaljenog kraja najčešće kao mono signal. Zvuk u ambijentu prostorije 201 snima mikrofonski niz 103 sastavljen od N mikrofona. Nakon kompleksne obrade mikrofonskih signala u bloku 207 govorni signal govornika 202 se preko bloka 208 prenosi ka udaljenom sagovomiku kao mono signal.
Ambijentalni uslovi odvijanja govorne komunikacije u prostoriji 201 su veoma kompleksni. Kod slobodne video-telefonske komunikacije u prostoriji 201 postoji minimum tri izvora zvuka: stereo zvučnici 102 koji emituju govor udaljenog sagovomika i TV program, govornik 202 i bar jedan izvor šuma 203. U prostoriji može biti i više izvora šumova: šum računara, šum klima sistema, buka sa ulice koja prodire u prostoriju kroz prozore, buka iz susednih prostorija, vibracije zgrade, ili drugi govornik, više govornika, izvor muzike, itd. Dakle, pojavljuje se veoma složena akustička slika u prostoriji. Mikrofonski niz 103 snima, kao senzorski sistem, sve zvuke u prostoriji, snima direktne zvučne talase od svakog izvora ali i sve refleksije od zidova prostorije i drugih predmeta koji se nalaze u njoj. Tako na primer, ođ zvučnika 102 do mikrofonskog niza 103 stiže direktan talas 209 i mnogi reflektovani talasi od kojih je samo jedan 210 prikazan na slici 2; od govornika 202 stiže direktan talas 211 i pored ostalih i dva reflektovana talasa 212a i 212b, od izvora šuma 203 stiže direktan talas 213 i pored ostalih i reflektovani talas 214.
Od svih zvukova koje mikrofonski niz snima jedino je direktan talas 211 od govornika 202 koristan signal, svi ostali su smetnje. Od svih smetnji najveća je akustički eho 209 koji dolazi iz zvučnika 102. Sve ostale refleksije zbirno čine reverberaciju prostorije. Zadatak bloka za obradu audio signala 207 jeste da potisne signal akustičkog eha, da selektuje koristan signal 211 od svih ostalih smetnji, da potisne signale reverberacije i da potisne direktne signale izvora smetnji, kojih može da bude i više od jednog izvora. Poseban zadatak bloka 211 jeste adaptivno praćenje nestacionarnosti akustičke scene u prostoriji bilo da se govornik pokreće, ili da se od razgovora do razgovora nalazi na različitim pozicijama u prostoriji, ili da se izvori šumova pokreću, da su nestacionarni ili da menjaju svoje karakteristike. U daljem tekstu biće pojedinačno opisana rešenja koja su u ovom pronalasku primenjena.
Na slici 3 prikazana je blok šema kompletnog postupka obrade audio signala u okviru sistema za slobodnu video-telefonsku komunikaciju pomoću mikrofonskog niza. Svi mikrofonski signali103,od Ml do M5, kao i signali stereo zvučnika102,Zv-L i Zv-D, se digitalizuju u akvizicionom bloku 107, slika 1, i konvertuju u frekvencijski domen pomoću brze Fourierove transformacije (FFT) 301 u signalex;doxi.Treba naglasiti da mikrofonski niz sadrži 5 mikrofona u rešenju ovog patenta, ali se može primeniti veći broj mikrofona ukoliko određena aplikacija to zahteva. U bloku302vrši se potiskivanje akustičkog eha u svim signalimax\dox$,koristeći signalex&ix7kao referentne. Signali sa potisnutim ehomSaecidoSaecskoriste se u bloku 304 za odredjivanje pravca direktnog zvučnog talasaDOA( Direction Of Arrival)po horizontali (azimutu0a)od aktuelnog govornika i time omogućava njegovo praćenje u prostoriji. Na osnovu ocenjenog ugla9au bloku 303 se optimiziraju težinski koeficijentisignala xidojcju cilju formiranja karakteristike horizontalne usmerenosti mikrofonskog niza sa maksimumom prijema na pravcu8a.Karakteristika prijema formirana u bloku303ima superdirektivno svojstvo što znači da joj je indeks usmerenosti (direktivnosti) prijema veći u odnosu na karakteristiku koja bi se dobila samo kompenzacijom kašnjenja i sumiranjem mikrofonskih signala.
U bloku 303 vrši se vremenska kompenzacija međusobnog kašnjenja akustičkih signala od govornika do mikrofona. Kontrolom ovog kašnjenja signalom DOA (0a) iz bloka304,omogućava se upravljanje karakteristikom usmerenosti mikrofonskog niza po azimutu. Takođe, u bloku 303 formira se karakteristika usmerenosti mikrofonskog niza,SD-BF( Superdirective Beamformer).Ova karakteristika ima osnovnu petlju usmerenja dovoljno uzanu i usmerenu u željenom pravcu, dok su bočne petlje znatno manje po intenzitetu. Time se omogućava mikrofonskom nizu prostorno filtriranje, odnosno separaciju izvora zvukova po horizontali. Ovako formirana karakteristika usmerenosti je veoma bitna sa aspekta utišavanja signala bočnih smetnji u odnosu na korisni signal i sa aspekta smanjenja efekta reverberacije prostorije. Karakteristika usmerenosti se formira ponderisanjem mikrofonskih signala i njihovim sumiranjem u jedinstveni izlazni signal.
Signal na izlazu bloka 303 sadrži koristan govorni signal i signal smetnji koji se sastoji od rezidualnog signala nakon potiskivanja akustičkog eha, potisnut šum ambijenta i potisnute signale reverberacije. Ovaj signal ulazi u blok NR( Noise Reduction)305gde se vrši dodatno potiskivanje signala smetnji. Proces potiskivanja je adaptivan obzirom na nestacionarnost signala smetnji. Takođe, važan zahtev u realizaciji NR bloka jeste da proces potiskivanja šuma ne sme da utiče na kvalitet govornog signala.
Finalni blok obrade signala u sistemu za slobodnu govornu komunikaciju u video-telefonskim ili telekonferencijskirn primenama jeste blok 306 za automatsku kontrolu pojačanja AGC( Automati Gain Control)obrađenog govornog signala. U ovom bloku koristi se više informacija iz celokupnog sistema koje su važne za definisanje mogućih uslova u kojima se govorni signal može naći i gde je potrebno na odgovarajući način izvršiti njekovu amplitudsku korekciju. Na taj način se može obezbediti približno isti nivo predaj nog govornog signala nezavisno od udaljenosti aktuelni govornik od mikrofonskog niza i obezbediti njegov bolji kvalitet na udaljenom kraju komunikacionog kanala.
Na izlazu sistema rezultat obrade signala se transformiše iz frekvencijskog u vremenski domen pomoću inverzne FFT u bloku 307. Estimirani govorni signal na bližem kraju( š)se prenosi kroz kanal ka udaljenom sagovorniku.
Na slici 4 prikazan je blok dijagram potiskivača akustičkog eha (AEC) 302, koji se sastoji od dva osnovna bloka: blok 401 koji se sastoji od 5 adaptivnih NLMS( Normalized Least Mean Square)algoritama i bloka402čija je osnovna funkcija detekcija aktivnosti govora bliskog i udaljenog govornika DTD( Double Talk
Detection).
NLMS algoritmi, NLMS1 do NLMS6, obrađuju signale iz mikrofonax/doxsi obrađene signaleSaecidoSaecsprosleđuju dalje ka blokovima 303, 304 i 306, slika 3. Funkcija NLMS algoritama je potiskivanje eha u svakom od mikrofonskih signala. Ovu funkciju omogućavaju referentni signali iz zvučnika102i kontrolni signali iz DTD detektora402.NLMS algoritam modelira prenosnu funkciju akustičkog puta od svakog zvučnika102do svakog mikrofona103;na primer NLMS1 modelira prenosne funkcijehuod zvučnika Zv-L do mikrofona Ml ihoiod zvučnika Zv-D do mikrofona Ml, itd. Prolaskom signala iz zvučnika kroz NLMS filtre dobij a se replika signala na mikrofonima koji su došli akustičkim putem i oduzimanjem ova dva signala postiže se potiskivanje eho signala na izlazu NLMS algoritama. U cilju boljeg potiskivanja eha, kao i u slučajuRLS1AEC algoritma(RLS-Recursive Least Squares)koji se dole opisuje, koriste se DFT koeficijenti iz prethodnih blokova obrade. Kako NLMS algoritam zahteva znatno manje računarskog vremena u odnosu na RLS algoritam, u realizaciji NLMS algoritama se koriste DFT koeficijenti iz prethodna 5 bloka obrade.
Blok403sa oznakom RLS1 AEC je ključni algoritamski deo postupka detekcije dvostruke govorne aktivnosti iz bloka402. RLS1AEC vrši grubo potiskivanje akustičkih smetnji u signalu iz mikrofona Ml primenom RLS algoritma. RLS algoritam ima brzu konvergenciju što obezbeđuje dobru estimaciju govornog signala kao i estimaciju aditivne komponente eho signala. S obzirom da veličina primenjenog DFT prozora od 1024 nije dovoljno velika da bi se ostvarilo maksimalno potiskivanje eho smetnji u prostoriji sa velikom reverberacijom, regresionom vektoru se pridružuju DFT koeficijenti iz 3 prethodna bloka obrade. Time se ostvaruje dvostruki dobitak: maksimalno potiskivanje eha i kašnjenje signala kroz sistem se ne uvećava jer red DFT ostaje nepromenjen.
Izlaz izRLS1AEC bloka su dva signalaeiy.Prvi signale jeestimacija govora bliskog govornika na mikrofonu Ml. Drugi signalyje estimacija aditivne komponente signala eha u signalu mikrofona Ml. Oba ova signala se koriste za detekciju dvostruke govorne aktivnosti koja se realizuje u bloku402sa oznakomDTD.Signal izDTDdetektora kontroliše rad NLMS algoritama u smislu da sprečava adaptaciju algoritama NLMS 1 do NLMS 5 za vreme dvostruke aktivnosti govora, kada dolazi do remećenja rada adaptivnih algoritama. U bloku405vrši se usrednjavanje snaga signala na zvučnicima prema relaciji:
Na oba signalayiPrefse primenjuje rekurzivno usrednjavanje, tako da se dobijaju usrednjene snage signala eha u mikrofonu Ml (2) i signala na zvučnicima koji proizvode eho (3).
Estimacija odnosa ove dve snage se određuje veličinomCs:
i ona se koristi za skaliranje snaga zvučničkih signala za potrebe donošenja meke odluke u bloku 408. U ovom bloku se određuje odsustvo bližeg govornika u mikrofonskom signalu na bazi meke odluke definisane relacijom: gde je:af- frekvencijski zavisna konstanta kojom se veštački favorizuje dozvola za konvergenciju na višim frekvencijama, gde su snage signala manje, a time i manja mogućnost divergencije NLMS algoritama. VeličinaXje minimalni odnos snage eho signala i bliskog govornika za koji je meka odluka pozitivan broj. U bloku409vrši se ograničavanje kontrolnog signalaDui,koji se pored NLMS algoritama vodi i u blok DOA-azimut. Slika 5 prikazuje blok dijagram rešenja za određivanje azimuta 304, odnosno pravca dolaska direktnog zvučnog talasa DOA-azimut od aktivnog govornika. Ulazni signali u ovaj blok su kanalski signali iz AEC blokaSAecidoSaecs,a izlazni signal je estimacija dolaznog ugla6a.Algoritam se bazira na kroskorelacionoj analizi ulaznih signalaSaecidoSaecsu bloku501,na čijem se izlazu dobijaju estimacije četiri kroskorelacione funkcijeG\ t2{ tJ)doG\$( tj)rekurzivnim usrednjavanjem prema relaciji
Konstante cu i a, se biraju tako da ispunjavaju nejednakost 0.5 < a+ < a. < 1 i pod tim uslovom favorizuje se uticaj članovaXx( t, f) X\ (r, /)sa najvećim modulom.
U bloku 502 sa oznakom PHAT realizuje se generalizovana kroskorelacija u literaturi često označena kao fazna transformacija. Naime, normalizacijom kroskorelacije na svoj moduo gubi se informacija o snazi signala, a ostaje samo informacija o fazi u kojoj je sadržano relativno vremensko kašnjenje signala. Inverznom FFT transformacijomGlk( t, f)i nalaženjem maksimuma, ocenjuje se relativno vremensko kašnjenje zvučnog talasa između dva mikrofona.
Pošto govorni signal ima formantnu strukturu, zbog čega svi frekvencijski binovi nemaju istu snagu, potrebno je selektovati binove sa najvećom snagom i njih iskoristiti za određivanje kroskorelacione funkcije. U tom cilju se u bloku 503 vrši računanje trenutne snage svakog kanalskog signala i računanje srednje vrednosti snage svih kanalaP( t, f).U bloku 504 određuje se težinska funkcijaW( tJ)kojom se favorizuju binovi kod kojih postoji rast trenutne snage signala. Razlog izbora ovakvog rešenja je taj što na delu signala sa naglim rastom snage veći je udeo direktnog talasa nego na delu sa padom snage, gde dominiraju refleksije talasa odnosno reverberacija prostorije. U bloku 505 računa se srednja snaga mikrofonskih signala usrednjena po vremenu i pofrekvenciji, P( t, f).Prvo se vrši usrednjavanje binova po frekvenciji nekauzalnim HR filtrom prvog reda (nulto fazno kašnjenje se postiže dvostrukim filtriranjem unapred i unazad). Usrednjavanje po vremenu vrši se nelinearnim IIR filtrom prvog reda sa dva koeficijenta usrednjavanja, jedan za rast i drugi za pad snage signala. Ovaj nelinearni filtar se opisuje relacijama:
VeličinaP( t, f)koristi se za definisanje praga odluke za izdvajanje binova sa najvećom snagom u bloku 506. Množenjem binarnog izlaza iz bloka 506 i težinskog vektoraW( t, J)dobija se filterska funkcijaW( t, f),kojom se ponderišu binovi fazne transformacije u bloku 502. Fazno transformisane kroskorelacione funkcije se dodatno filtriraju IIR filtrom u vremenu kako bi se umanjila varijansa estimacije korelacionih funkcija. Ovo se opisuje relacijom:
Pored selekcije binova sa funkcijomW( t, f),primenjuje se i apriorno odbacivanje binova koji se nalaze izvan opsega od interesa. U bloku 507 defmisani su opsezi koji apriorno nisu od interesa i oni se odbacuju pre inverzne FFT (FFT<1>). U bloku 509 vrši se vremensko usklađivanje kroskorelacionih funkcija, koje se zatim usrednjavaju i na njihovoj srednjoj vrednosti se određuje maksimum u bloku 510, čija apscisa predstavlja estimaciju vremenskog kašnjenjat^,.U bloku 511 vrši se preračunavanje vremenskog kašnjenjaxatu upadni ugao 0«/talasa aktivnog govornika.
Estimacija dolaznog pravca ima smisla kada je bliski govornik aktivan; kada nije aktivan za validnu estimaciju se usvaja estimacija dobijena za vreme poslednje njegove aktivnosti. U cilju detekcije aktivnosti bliskog govornika koriste se: a) informacija iz bloka 513 o srednjoj snazi mikrofonskih signala; b) informacija iz detektora dvostruke aktivnosti govornikaD?,iz bloka 402, slika 4; i c) informacijasbfiz bloka 303, SD-BF slika 3. Na osnovu ovih informacija u bloku 512 se donosi odluka o aktivnosti bliskog govornika. U slučaju odluke da je estimacija dolaznog pravca validna, da je aktivan bliži govornik, na izlaz DOA bloka 304 se prosleđuje trenutna estimacija dolaznog pravca; u suprotnom se prosleđuje poslednja validna estimacija pravca.
Na slici 6 prikazan je blok dijagram postupka za formiranje superdirektivnog prostornog filtra 303, slika 3. Zbog problema samoponištavanja korisnog signala koji se javlja kada se adaptivni algoritam za potiskivanje akustičkih smetnji primenjuje u prostoriji sa reverberacijom, često se umesto adaptivnog algoritma primenjuje superdirektivni prostorni filter 601 sa fiksnim koeficijentima. Superđirektivni prostorni filtar obezbeđuje veći indeks usmerenosti u odnosu na prostorni konvencionalni filter koji sadrži samo kompenzaciju kašnjenja i sumiranje. Opis postupka dobijanja težinskih koeficijenata koji obezbeđuju superdirektivnu karakteristiku filtra su dati u daljem tekstu.
Za prostoriju sa reverberacijom se obično usvaja model difuznog polja šuma, Što podrazumeva da šum dolazi iz svih pravaca sa približno istim intenzitetom. Za takav model polja šuma pokazuje se da je koherencija između dva mikrofona realan broj jednak
gde je/učestanost, dtJ jerastojanje mikrofonai ij, acbrzina zvuka. Koherencije parova mikrofonarfJ(/)formiraju matricu koherencija Frf. Koristeći ovako definisanu matricu koherencija,koeficijenti superdirektivnog mikrofonskog niza se odredjuju u bloku 602 prema relaciji: gde je C9vektor usmerenja na pravac odabranog govornika definisan azimutom 0. Ovaj vektor se određuje u bloku 603 prema relaciji:
Veličinad jerastojanje dva susedna mikrofona. Na izlazu bloka 303 dobija se estimacija govorasSFaktuelnog govornika na bazi relacije:
Na slici 7 prikazanje blok za potiskivanje šuma 305 sa oznakom NR. SignalSbfjeste ulazni signal u blok 305 i on sadrži estimirani govorni signal i rezidualne signale smetnji koji potiču od akustičkog eha, akustičkih smetnji u prostoriji i reverberacije prostorije. SignalSbfse uvodi u blok 701, označen sa FWF"', u kome se izvršava IFFT, zatim dopunsko prozorovanje vremenskog oblika segmenta signala u cilju "mekanog" otsecanja krajeva segmenta i na kraju ponovno vraćanje u frekvencijski domen pomoću FFT. Suština ove operacije je sledeća. U procesu prethodnih obrada signala, ekvivalentni vremenski oblik signala se proširuje do granica DFT prozora. Primenom nove operacije Wiener-ovog filtriranja vrši se dodatno proširivanje segmenta i cikličko preklapanje na krajevima segmenta, što stvara impulsne smetnje koje se manifestuju kao ravnomemo "pucketanje". Primenjeni postupak FWF"' u potpunosti otklanja opisani problem a ne unosi nikakva dodatna izobličenja signala.
U naredna dva bloka 702 i 703 vrši se estimacija šuma na bazi minimuma snage ulaznog signala. Pošto trenutna adaptacija na minimum snage ne daje dobre rezultate, jer DFT koeficijenti na pojedinim blokovima imaju ekstremno nisku snagu koja remeti prethodnu estimaciju snage šuma, estimacija Šuma je realizovana u tri bloka obrade, U prvom bloku 702 se vrši spora estimacija snage šumaN, low,u drugom 703, brza estimacija snage šumaN^,a u trećem 704 se na osnovu procenaN) lowiNfttllposredstvom nelinearne transformacije vrši procena trenutne snage šumaN.
Brza i spora procena snage šuma se realizuje istim postupkom rekurzivnog usrednjavanja IIR filtrom prvog reda sa različitim faktorima adaptacije za rast i pad vrednosti izlaza
pri čemu između konstantialUnM., ash„_, afas,+,<a>slaw_postoji relacija:
Brza i spora estimacija šuma se kombinuju u bloku 704, koji je označen kao nelinearni kompresor. Finalna estimacija nivoa šuma se dobij a na bazi sledeće relacije:
gde se parametrom a (0.25<a<0.5) reguliše stepen kompresije dinamike estimacije šuma, a parametrom p definiŠe se uvećanje estimacije šuma( overestimation of the noise power).Smisao nelinearne transformacije je sledeći: u slučajuNfajl>N! towprimena samo brze estimacije dala bi prekomerno potiskivanje i govornog signala, zato je uvedena kompresija dinamike estimacije šuma. U slučajuNfmt < N, lowne primenjuje se kompresija kako bi estimacija šuma što brže opala. Time se sprečava otsecanje delova fonema na krajevima reči kada zbog brzog pada snage signala visoka vređnost prethodne estimacije šuma sporog estimatora ne može da prati ovu promenu dinamike.
Pošto je odnos korisnog govornog signala i šuma znatno nepovoljniji na visokim frekvencijama, definisan je skup parametara a i p za 4 karakteristična opsega frekvencija (0-2000Hz), (2000-2500Hz), (2500-3500Hz)H(3500-5012Hz), prema očekivanom odnosu signal/šum. Ovaj skup parametara je memorisan u bloku 705.
U bloku 706 vrši se Wiener-ovo filtriranje primenom sledeće prenosne funkcije:
gde konstanta /?Mima funkciju procenjivanja prvobitne procene snage šuma kako bi se ostvario kompromis između što većeg potiskivanja šuma i minimalne degradacije korisnog govornog signala. Prenosna funkcijahwmože imati u vremenskom domenu neprihvatljivo dugačak impulsni odziv, što proizvodi izobličenja na granicama DFT blokova, i zbog toga se vrši "meko" skraćenje impulsnog odziva primenom gore opisanog postupka FWF''. Na kraju se vrši u bloku 707 dodatno filtriranje izlaznog estimiranog govornog signalaš,kako bi se odbacile spektralne komponente van opsega
govornog signala, koje mogu nastati u prethodnim procesima obrade signala, a koje mogu uticati na rad AGC bloka.
Na slici 8 prikazanje blok za automatsku regulaciju pojačanja (AGC) izlaznog signala sistema, blok 306. Zadatak AGC bloka je: (1) da pojača slabe govorne signale a da oslabi previše jake signale prema unapred zadatoj karakteristici kompresije dinamike signala, (2) da na delovima ulaznog signala gde je prisutan samo eho signala, stacionaran šum ili konkurentni govornik-smetnja, smanji pojačanje kako bi se ove smetnje dovoljno utišale i (3) da utiša delove ulaznog signala gde su jednovremeno prisutni i koristan govorni signal i smetnje, a da pri tome očuva razumljivost govora.
Na ulaz bloka 306 dolazi signals^ giz bloka NR, slika 3 blok 305, i prolazi kroz kompresor dinamike signala sa adaptivnim nagibom karakteristike kompresije, blok 801. Izlaz iz bloka 801 je signalsagckoji zatim prolazi kroz blok 307, slika 3, gde se inverznom Fourierovom transformacijom FFT"<1>konvertuje iz frekvencijskog u vremenski domen i kao konačan signal estimacije govornog signalašprenosi ka udaljenom govorniku kroz kanal digitalne televizije.
Kontrola pojačanja govornog signala vrši se u bloku 801 na bazi sledeće relacije:
gde su:Aagc- pojačanje AGC bloka,Pnom- nominalna snaga izlaznog signala, a -
konstanta kojom se ograničava maksimalno pojačanje na nivoAagcamK= Vl/or (za vrednost a = 0.001 maksimalno pojačanje jeAagc max =31.6 dB),Pin<=>Pa + P„<+>Pecka ( Pd
- snaga korisnog govornog signala,P„- snaga difuznog ambijentalnog šuma iPeko-
snaga nepotisnutog eho signala), iSLOPE = /[ P^ it)]- veličina koja predstavlja stepen kompresije dinamike signala i složena je funkcija vršne snage korisnog govornog signala. U bloku 802 izračunava se veličinaSLOPEna bazi analize trajektorije vršne snage korisnog govornog signala i praćenja njene konveksnosti i trenda rasta.
U bloku 803 izračunava se vršna snaga korisnog govornog signala prema sledećim relacijama:
gde jeOđ - konstantavrednosti blizu 1.
U bloku 804 određuje se estimacija snage nepotisnutog eha prema relaciji:
gde jeaecha- konstanta potiskivanja eho signalayiz bloka 402, slika 4.
U bloku 805 vrši se estimacija difuznog šuma P„ kaoTazlika srednje snage ulaznih signalaSaecidosaecsu blok 303, slika 3, i snage izlaznog signalasbfiz bloka 303.
Neposredna primena relacijeza. Aagcza unapred fiksnu veličinuSLOPEne daje dobre rezultate, jer jednako tretira preostale smetnje i koristan signal. Kada su prisutne samo smetnje dolazi do njihovog pojačanja, što nije dobro. Zato je potrebno detektovati i razdvojiti sledeće slučajeve: (a) pauza u korisnom govornom signalu, (b) prisutan rezidualni eho, i (c) prisutan konkurentni govornik ili akustička smetnja. Kada se detektuje bilo koji od ovih slučajeva, promenljivaSLOPEse izjednačava sa 1 i tako sprečava pojačanje smetnji.
Pauza u korisnom govornom signalu se razlikuje od govornog signal po stacionarnosti. Govorni signal, ma koliko bio slabog nivoa, nestacionaran je u vremenu, dok je u pauzi prisutan sporopromenjivi ambijentalni šum. Linearni trend snage signala normalizovan na snagu je dobar pokazatelj nestacionarnosti signala. Tome treba dodati i pokazatelj konveksnosti trajektorije koji je negativan na lokalnom maksimumu.
U ovom pronalasku opisan je postupak obrade akustičkih i govornih signala u sistemu slobodne govorne komunikacije koji funkcioniše u punom dupleksu. Ovaj pronalazak se odnosi na slobodnu govornu komunikaciju u sistemu digitalne televizije, ali se isto tako može primeniti i na druge komunikacione sisteme kao što su video-telefonski sistemi, telekonferencijski sistemi, spikcrfoni u prostoriji ili kolima, komunikacija čovek-računar putem glasa, i td. Specifičnost rešenja u ovom pronalasku jeste njegova integracija u standardni digitalni TV prijemnik i njegova optimizacija za primenu u prostorijama (akustičkim ambijentima) srednje veličine sa vremenom reverberacije do 600 ms.
Postupci i tehnike obrade akustičkih i govornih signala u ovom pronalasku mogu se generalizovati na N mikrofona u mikrofonskom nizu kod višekanalnog snimanja i na M zvučnika kod višekanalne reprodukcije.
Postupci i tehnike obrade akustičkih i govornih signala u ovom pronalasku se nalaze pod kontrolom većeg broja parametara koji omogućavaju optimizaciju rešenja za različite aplikacije.
Postupci i tehnike obrade akustičkih i govornih signala u ovom pronalasku mogu se implementirati na različite načine. Na primer, ove tehnike mogu biti implementirane u hardveru, softveru ili kombinovano. U hardverskoj implementaciji mogu se koristiti specifična integrisana kola (ASIC), procesori za digitalnu obradu signala (DSP), programabilna logička kola (PLD ili FPGA) i druga elektronska kola projektovana tako da mogu izvršiti opisane funkcije u ovom pronalasku.
Postupci i tehnike obrade akustičkih i govornih signala u ovom pronalasku mogu se implementirati i softverski u celosti ili po modulima koji izvršavaju pojedine funkcije opisane u ovom pronalasku. Programski kodovi mogu biti memorisani u memorijskim jedinicama i izvršavani pomoću procesora kao što su PC, PDA, DSP, itd.
Detalji ovog pronalaska opisani ovde omogućavaju bilo kom stručnjaku u ovoj oblasti da generičke principe ovog pronalaska može implementirati u drugim sistemima za slobodnu govornu komunikaciju čime se ne izlazi iz okvira ovog pronalaska.

Claims (24)

1. Sistem za slobodnu govornu komunikaciju pomoću mikrofonskog niza koji sadrži digitalni TV prijemnik koji omogućava audio i video komunikaciju u punom dupleksu karakterisan time što digitalni TV prijemnik (100) ima stereo audio reprodukciju (102) za reprodukovanje stereo TV programa i mono dolaznog govornog signala u videotelefonskoj komunikaciji, koji ima ugrađenu pokretnu video kameru (104) za snimanje govornika u prostoriji i koji na delu svog ekrana reprodukuje sliku sagovomika sa udaljenog kraja (105); koji sadrži mikrofonski sistem (103) ugrađen u TV prijemnik (100) čija je namena snimanje govora govornika na bliskom kraju kao i ostalih ambijentalnih zvukova i čija je namena lociranje govornika u prostoriji i upravljanje video kamerom (104).
2. Sistem prema zahtevu 1 karakterisan time što njegov audio predajni deo (207) i (208) omogućava potiskivanje akustičkog eha (209) koji generišu zvučnici TV prijemnika (102), omogućava potiskivanje ambijentalnih smetnji (213) i reverberacije (210), (212) i (214), omogućava lociranje govornika u prostoriji, omogućava adaptivnu kontrolu nivoa signala u predaji i daje koordinate za upravljanje video kamerom.
3. Sistem prema zahtevu 2 naznačen time što sadrži mikrofonski niz (103) od više ođ 2 mikrofona koji obezbeđuju mikrofonske signale za dalju paralelnu obradu, modul za adaptivno potiskivanje akustičkog eha (AEC) (302) koga čini skup adaptivnih filtara, modul za estimaciju dolaznog pravca direktnog zvučnog talasa govornika (DOA) (304) i upravljanje karakteristikom usmerenosti mikrofonskog niza, modul za formiranje karakteristike usmerenosti mikrofonskog niza sa optimiziranim odnosom glavne i bočnih petlji (SB-CBF) (303), modul za adaptivno potiskivanje svih rezidualnih signala smetnji (NR) (305) i modul.za automatski kontrolu pojačanja sistema (AGC) (306).
4. Sistem prema zahtevu 3, naznačen time, što sadrži skup mikrofona (103) lociranih u horizontalnoj ravni na jednakom međusobnom rastojanju i montiranih na gornjoj ivici digitalnog TV prijemnika (100).
5. Sistem prema zahtevu 4, naznačen time, što vrši potiskivanje akustičkog eha (209) koji generišu stereo zvučnici (102) a koji se sastoji od stereo audio TV signala (205) i mono govornog signala koji potiče od udaljenog govornika (204).
6. Sistem prema zahtevu 5, naznačen time, što jedinica za potiskivanje eha (302) i jedinica za potiskivanje ambijentalnih smetnji (305) rade i u uslovima malog odnosa signal/šum.
7. Sistem prema bilo kom od prethodnih zahtevanaznačen time,što omogućava adaptivno lociranje i praćenje govornika u prostoru po azimutu.
8. Sistem prema zahtevu 7,naznačen time,što omogućava adaptivno određivanje prostornih koordinata za upravljanje video kamerom.
9. Sistem prema zahtevu 4naznačentime, što njegov mikrofonski niz formira uzanu karakteristiku usmerenosti koja omogućava prostorno filtriranje i separaciju aktuelnog govornika od drugih izvora smetnji u prostoriji.
10. Sistem prema zahtevu 9naznačen time,što njegov mikrofonski niz formira uzanu karakteristiku usmerenosti koja omogućava potiskivanje eha usled refleksija u prostoriji, odnosno signala reverberacije.
11. Sistem prema bilo kom od prethodnih zahteva,naznačen time,što putem automatske kontrole pojačanja sistema održava srednji nivo predajnog govornog signala u prihvatljivim granicama normalne dinamike govora bez obzira na udaljenost i položaj govornika u odnosu na mikrofonski niz.
12. Postupak za slobodnu govornu komunikaciju pomoću mikrofonskog niza,karakterisan time,što paralelno obrađuje mikrofonske signale iz mikrofonskog niza i time postiže adaptivno potiskivanje akustičkog eha u mikrofonskim signalima, što vrši estimaciju dolaznog pravca direktnog zvučnog talasa bliskog govornika, što formira superdirektivnu karakteristiku usmerenosti mikrofonskog niza i upravlja njenim prostornim položajem po azimutu, što vrši potiskivanje svih signala smetnji koji se nalaze u mikrofonskim signalima i što vrši automatsko održanje nivoa predajnog govornog signala.
13. Postupak prema zahtevu 12,karakterisan time,što se kompletna obrada svih audio signala vrši u frekvencijskom domenu.
14. Postupak prema zahtevu 12,karakterisan time,što se adaptivno potiskivanje akustičkog eha vrši pojedinačno za svaki mikrofonski signal i da se u potiskivanju obuhvataju oba signala koja dolaze iz stereo zvučnika.
15. Postupak prema zahtevu 14,karakterisantime, što se adaptivno potiskivanje akustičkog eha vrši za svaki mikrofonski signal pomoću NLMS algoritama koji su kontrolisani pomoću detektora aktivnosti govora na oba kraja (DTD).
16. Postupak prema zahtevu 14, karakterisan time, što se NLMS algoritmi kontrolišu pomoću detektora aktivnosti govora na bližem kraju koji je realizovan u okviru DTD a na bazi RLS adaptivnog algoritma pri specifičnim uslovima kontinualnog prisustva TV audio programskog signala, koji pored govora sadrži i muzički signal.
17. Postupak prema zahtevu 12, karakterisan time, Što se estimacija dolaznog pravca direktnog zvučnog talasa od aktuelnog govornika vrši na bazi kroskorelacione analize mikrofonskih signala nakon potiskivanja akustičkog eha.
18. Postupak prema zahtevu 17, karakterisan time, što se estimacija dolaznog pravca direktnog zvučnog talasa od aktuelnog govornika vrši pod kontrolom VAD detektora za govor na bližem kraju.
19. Postupak prema zahtevu 12, karakterisan time, što se karakteristika usmerenosti mikrofonskog niza formira u modulu SB-CBF kao superdirektivna karakteristika na principu ponderisanja i sumiranja mikrofonskih signala nakon potiskivanja akustičkog eha i adaptivnog upravljanja prema azimutu.
20. Postupak prema zahtevu 19, karakterisan time, što se koeficijenti superdirektivnog mikrofonskog niza određuju pomoću funkcija koherentnosti parova mikrofonskih signala i vektora usmerenja na pravac odabranog govornika definisan uglom azimuta.
21. Postupak prema zahtevu 12, karakterisan time, što se funkcija potiskivanja rezidualnog šuma ostvaruje adaptivnim Wiener-ovim filtrom.
22. Postupak prema zahtevu 21, karakterisan time, što je estimacija rezidualnog šuma u potiskivaču šuma optimizirana prema karakteristikama govornog signala i realizovana na bazi nelinearnog kompresora dinamike estimiranog šuma parametarski kontrolisanog i frekvencijski zavisnog.
23. Postupak prema zahtevima 12 do 22 karakterisan time, što se modul za automatsku kontrolu pojačanja sistema zasniva na kompresoru dinamike sa adaptivnom nagibom karakteristike kompresije.
24. Postupak prema zahtevu 23, karakterisan time, što se kompresor dinamike govornog signala kontroliše pomoću detektora prisutnosti rezidualnog akustičkog eha, detektora pauze u govornom signalu i detektora konkurentnog govornika i akustičkih smetnji.
RSP-2006/0551A 2006-10-04 2006-10-04 Sistem i postupak za slobodnu govornu komunikaciju pomoću mikrofonskog niza RS49875B (sr)

Priority Applications (2)

Application Number Priority Date Filing Date Title
RSP-2006/0551A RS49875B (sr) 2006-10-04 2006-10-04 Sistem i postupak za slobodnu govornu komunikaciju pomoću mikrofonskog niza
PCT/RS2007/000017 WO2008041878A2 (en) 2006-10-04 2007-09-19 System and procedure of hands free speech communication using a microphone array

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RSP-2006/0551A RS49875B (sr) 2006-10-04 2006-10-04 Sistem i postupak za slobodnu govornu komunikaciju pomoću mikrofonskog niza

Publications (2)

Publication Number Publication Date
RS20060551A RS20060551A (sr) 2007-06-04
RS49875B true RS49875B (sr) 2008-08-07

Family

ID=39268910

Family Applications (1)

Application Number Title Priority Date Filing Date
RSP-2006/0551A RS49875B (sr) 2006-10-04 2006-10-04 Sistem i postupak za slobodnu govornu komunikaciju pomoću mikrofonskog niza

Country Status (2)

Country Link
RS (1) RS49875B (sr)
WO (1) WO2008041878A2 (sr)

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2146519B1 (en) * 2008-07-16 2012-06-06 Nuance Communications, Inc. Beamforming pre-processing for speaker localization
JP5386936B2 (ja) 2008-11-05 2014-01-15 ヤマハ株式会社 放収音装置
US9215527B1 (en) 2009-12-14 2015-12-15 Cirrus Logic, Inc. Multi-band integrated speech separating microphone array processor with adaptive beamforming
US8861756B2 (en) 2010-09-24 2014-10-14 LI Creative Technologies, Inc. Microphone array system
US8811601B2 (en) * 2011-04-04 2014-08-19 Qualcomm Incorporated Integrated echo cancellation and noise suppression
GB2493327B (en) 2011-07-05 2018-06-06 Skype Processing audio signals
JP6064159B2 (ja) * 2011-07-11 2017-01-25 パナソニックIpマネジメント株式会社 エコーキャンセル装置、それを用いた会議システム、およびエコーキャンセル方法
GB2495129B (en) 2011-09-30 2017-07-19 Skype Processing signals
GB2495128B (en) 2011-09-30 2018-04-04 Skype Processing signals
GB2495472B (en) 2011-09-30 2019-07-03 Skype Processing audio signals
GB2495130B (en) 2011-09-30 2018-10-24 Skype Processing audio signals
GB2495278A (en) 2011-09-30 2013-04-10 Skype Processing received signals from a range of receiving angles to reduce interference
GB2495131A (en) 2011-09-30 2013-04-03 Skype A mobile device includes a received-signal beamformer that adapts to motion of the mobile device
GB2496660B (en) 2011-11-18 2014-06-04 Skype Processing audio signals
CN102968999B (zh) * 2011-11-18 2015-04-22 斯凯普公司 处理音频信号
GB201120392D0 (en) 2011-11-25 2012-01-11 Skype Ltd Processing signals
GB2497343B (en) 2011-12-08 2014-11-26 Skype Processing audio signals
TWI466108B (zh) * 2012-07-31 2014-12-21 Acer Inc 音訊處理方法與音訊處理裝置
EP2747451A1 (en) * 2012-12-21 2014-06-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Filter and method for informed spatial filtering using multiple instantaneous direction-of-arrivial estimates
WO2016054090A1 (en) * 2014-09-30 2016-04-07 Nunntawi Dynamics Llc Method to determine loudspeaker change of placement
KR20170035504A (ko) * 2015-09-23 2017-03-31 삼성전자주식회사 전자 장치 및 전자 장치의 오디오 처리 방법
CN110099328B (zh) * 2018-01-31 2024-03-29 北京塞宾科技有限公司 一种智能音箱
CN112333416B (zh) * 2018-09-21 2023-10-10 上海赛连信息科技有限公司 智能视频系统和智能控制终端
CN109147813A (zh) * 2018-09-21 2019-01-04 神思电子技术股份有限公司 一种基于影音定位技术的服务机器人降噪方法
CN110366017A (zh) * 2019-06-06 2019-10-22 深圳康佳电子科技有限公司 一种智能电视语音摄像头装置及智能电视机
CN110223690A (zh) * 2019-06-10 2019-09-10 深圳永顺智信息科技有限公司 基于图像与语音融合的人机交互方法及装置
CN110956969B (zh) * 2019-11-28 2022-06-10 北京达佳互联信息技术有限公司 直播音频处理方法、装置、电子设备和存储介质
CN111161751A (zh) * 2019-12-25 2020-05-15 声耕智能科技(西安)研究院有限公司 复杂场景下的分布式麦克风拾音系统及方法
CN113470682B (zh) * 2021-06-16 2023-11-24 中科上声(苏州)电子有限公司 一种用麦克风阵列估计说话人方位的方法、装置及存储介质
CN118072744B (zh) * 2024-04-18 2024-07-23 深圳市万屏时代科技有限公司 基于声纹的语言识别方法及装置
CN120582744B (zh) * 2025-08-04 2025-10-14 安徽旅贲科技有限公司 一种可控式防录音装置的控制系统

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5305307A (en) * 1991-01-04 1994-04-19 Picturetel Corporation Adaptive acoustic echo canceller having means for reducing or eliminating echo in a plurality of signal bandwidths
JP3626492B2 (ja) * 1993-07-07 2005-03-09 ポリコム・インコーポレイテッド 会話の品質向上のための背景雑音の低減
JPH0965224A (ja) * 1995-08-24 1997-03-07 Hitachi Ltd テレビ受像機
US5715319A (en) * 1996-05-30 1998-02-03 Picturetel Corporation Method and apparatus for steerable and endfire superdirective microphone arrays with reduced analog-to-digital converter and computational requirements
US6593956B1 (en) * 1998-05-15 2003-07-15 Polycom, Inc. Locating an audio source
US6483532B1 (en) * 1998-07-13 2002-11-19 Netergy Microelectronics, Inc. Video-assisted audio signal processing system and method
US6611281B2 (en) * 2001-11-13 2003-08-26 Koninklijke Philips Electronics N.V. System and method for providing an awareness of remote people in the room during a videoconference
CA2399159A1 (en) * 2002-08-16 2004-02-16 Dspfactory Ltd. Convergence improvement for oversampled subband adaptive filters
EP1618559A1 (en) * 2003-04-24 2006-01-25 Massachusetts Institute Of Technology System and method for spectral enhancement employing compression and expansion
US7099821B2 (en) * 2003-09-12 2006-08-29 Softmax, Inc. Separation of target acoustic signals in a multi-transducer arrangement
US20060132595A1 (en) * 2004-10-15 2006-06-22 Kenoyer Michael L Speakerphone supporting video and audio features

Also Published As

Publication number Publication date
RS20060551A (sr) 2007-06-04
WO2008041878A3 (en) 2009-02-19
WO2008041878A2 (en) 2008-04-10

Similar Documents

Publication Publication Date Title
RS49875B (sr) Sistem i postupak za slobodnu govornu komunikaciju pomoću mikrofonskog niza
US11297178B2 (en) Method, apparatus, and computer-readable media utilizing residual echo estimate information to derive secondary echo reduction parameters
TWI713844B (zh) 用於語音處理的方法及積體電路
US9443532B2 (en) Noise reduction using direction-of-arrival information
US9111543B2 (en) Processing signals
US8842851B2 (en) Audio source localization system and method
CA2475183C (en) A method to reduce acoustic coupling in audio conferencing systems
US20150371657A1 (en) Energy Adjustment of Acoustic Echo Replica Signal for Speech Enhancement
KR20200009035A (ko) 상관 기반 근접장 검출기
KR102409536B1 (ko) 오디오 디바이스에서 재생 관리를 위한 사건 검출
JPH11168791A (ja) 音声源を検出する装置及び方法
US9813808B1 (en) Adaptive directional audio enhancement and selection
KR20040019362A (ko) 후처리기로서 멀티 마이크로폰 에코 억제기를 가지는 음향보강 시스템
WO2007018293A1 (ja) 音源分離装置、音声認識装置、携帯電話機、音源分離方法、及び、プログラム
US20190348056A1 (en) Far field sound capturing
US10559317B2 (en) Microphone array processing for adaptive echo control
US9729967B2 (en) Feedback canceling system and method
WO2023149254A1 (ja) 音声信号処理装置、音声信号処理方法及び音声信号処理プログラム
EP4404548A1 (en) Acoustic echo cancellation
Khalid et al. Improved in-car sound pick-up using multichannel Wiener filter
RS20060611A (sr) Postupak i sistem za automatsku regulaciju pojačanja (agc) na osnovu očitavanja mikrofonskog niza
JP2676069B2 (ja) 多地点会議用反響消去装置
Schmidt Part 3: Beamforming
Schwab et al. 3D Audio Capture and Analysis
Lee et al. Small-Aperture Adaptive Microphone Array System for High Quality Speech Acquisition