NO20002111L

NO20002111L - Fremgangsmate og anordning for akkustisk ekkokansellering i stereo

Info

Publication number: NO20002111L
Application number: NO20002111A
Authority: NO
Inventors: Ove Till; Peter Eneroth; Tomas Gaensler
Original assignee: Telia Ab
Priority date: 1997-10-29
Filing date: 2000-04-26
Publication date: 2000-06-28
Also published as: NO20002111D0; DE69835614D1; EP1031191A2; SE9703972D0; SE9703972L; EE03716B1; EP1031191B1; SE512903C2; WO1999022460A2; EE200000182A; WO1999022460A3

Abstract

Det beskrives en fremgangsmåte og anordning ved stereoakustisk ekkokansellering. Akustisk ekkokansellering i stereo er betydelig mer vanskelig enn ekkokansellering i mono, på grunn av sterk korrelasjon mellom sterebkanalene. Oppfinnelsen er basert på anvendelse av en perseptuell audiokoder for å redusere korrelasjonen mellom stereo-kanalene, uten å introdusere lydforstyrrelser. Dette vil resultere i at stereokansellereren konvergerer mot de korrekte ekkoveier og derfor gir en mer stabil ekkokansellering som ikke er avhengig av transmisjonsrommet (fjern-ende) . Kjernen i oppfinnelsen er at en kan redusere korrelasjonen i overskudd av det som utføres med audiokoderen, ved å modifisere dets dekoder. Ekstra, ikke-korrelert (mellom kanalene) støy adderes (i dekoderen) i en slik grad at den ikke er hørbar, av informasjon tilveiebrakt fra koderen som anvendes i kombinasjon med et estimert perseptuell maskeringsnivå. Løsningen er således fleksibel og krever ikke at den kodingsstandard som anvendes forandres på noen måte. Kun et lite antall operasjoner må inkluderes i dekoderen.

Description

Den foreliggende oppfinnelse vedrører ekkokansellering i kombinasjon med signalkoding.

Akustisk ekkokansellering i stereokanaler er et mere vanskelig problem enn korresponderende mono-tilfelle. Dette på grunn av det faktum at hver kanal bærer lignende tale-signaler, noe som resulterer i problemer for den adaptive algoritme som benyttes. Området for applikasjon av stereokansellering er/er forventet å være/høykvalitets video-konferansesystemer og område med tele-spill. Disse felter har imidlertid forskjellige krav til kvalitet, båndvidde, etc.

I mono-tilfellet, anvendes kun NLMS (Normalized Least Mean Sguare Algorithm), på grunn av dets robusthet mot støy og signalvariasjoner (ikke-stasjonaritet). Ulempen med denne algoritme er at den har en konvergens som er avhengig av spektralkarakteristika på innkommende signaler (fjern-ende) . Et sterkt (i tid) autokorrelasjonssignal gir langsom konvergens og vice versa. I stereo-tilfellet korreleres talesignalet med tid, men også mellom respektive kanaler som senker konvergenshastigheten for NLMS i en slik grad at den vil bli unyttig. Ekkokansellering må derfor utføres med en annen type algoritme enn NLMS. I hovedsak er der to forskjellige typer algoritmer å velge mellom, sub-bånd-algoritmer, eller fullengde-RLS (Recursive Least Square) . Disse to har så klart forskjellige fordeler og ulemper ved imple-mentering. Kanalkorrelasjonen resulterer også i at der ikke er noe teoretisk estimat for ekkoveiene som ekkokansellereren konvergerer mot, men en mengde løsninger som alle er avhengig av senderrom (fjern-ende), fig. 1. Dette resulterer i en ustabil ekkokansellering, og ekkokansellereren divergerer med uregulære intervaller. For at ekkokansellereren skal konvergere på en stabil måte mot de korrekte ekkoveier, må stereosignalene modifiseres før de når ekkokansellereren som referansesignaler.

Stereokansellering inkluderer de følgende komplekse problemer:<*>Ekkoveiene wl(n), w2(n), fig. 1, i nær-ende, N, som skal estimeres av AEC er ikke unikt identifiserbare fra måledata.<*>Ekkokanselleringen av kansellereren er avhengig av variabiliteten av kanalene gl (n) , g2(n) i fjern-ende, F. Anta at signalene for mikrofonen på fjern-ende er gitt med, fig. 3,

hvor s(n) er kildesignalet og (n), i=l,2er ekkoveien for fjern-ende med lengde M, "<*>" beskriver konvolvering.

Restekko/ekkoene etter ekkokansellereren er:

hvor hj_N, i = l,2 er den reelle respons for lengden N fra nær-ende, og h^L=l,2er den estimerte respons av lengde L.

Minimalisering av vektet minste kvadratkriterier

resulterer i løsningen av det lineære ligningssystem hvor rxx(n) er den estimerte krysskorrelasjonsvektor, og Rxx(n) er korrelasjonsmatriksen,

Problemet med stereofonisk ekkokansellering er kondi-tisjonalantallet for denne matriks. Det er videre blitt vist

L>M => Rxx(n) is singular n

L<M => Rxx(n) is poorly conditioned

L>N => misallignment e (n) ->0 , n-»oo

L<N => misallignment s (n) —»0—»Vn

hvor feiljusterng er

En svakt kondisjonert Rxx(n) øker feiljusteringen. Således er der en kontradiksjon i løsningen dersom L<<M er bedre kondisjonert, på den andre side er feiljusteringen redusert dersom L>N. Men praktisk er L<M=N. Løsningen for denne feiljustering er å redusere korrelasjonen mellom stereokanalene.

Egenverdiene av korrelasjonsmatriksen kan begrenses i

nedstrømsretning med l-pi ^M \-'» hvor y(f) er koherens mellom stereokanalene. Feiljustering kan derfor måles med kohe-rensfunksjonen, som deretter fungerer som et mål på oppnådd dekorrelasj on.

Den foreliggende oppfinnelse er således tiltenkt å løse de ovenfor nevnte problemer.

To viktige applikasjoner for stereoakustisk ekkokansellering er høykvalitets videokonferanse og telespill. I fremtiden vil også desk-topp-baserte konferansesystemer ha et behov for stereoakustiske ekkokansellerere (AEC). Disse systemer har forskjellige krav til båndvidde, bit-hastighet, etc.

Stereoakustisk ekkokansellering har imidlertid vist seg å være mer komplisert enn i tilfelle for monokanaler.

Dette på grunn av at, i de to kanaltilfellene, er signalene lineært avhengige, noe som resulterer i konvergensproblemer for ekkokansellereren. På grunn av den lineære avhengighet mellom kanalene, er der teoretisk ingen unik løsning for ekkokansellereren å identifisere. Videre er alle ikke unike løsninger avhengig av ekkoveiene ved fjern-ende for for-bindelsen, F, (fjern-ende). I reelle situasjoner er løs-ningen imidlertid ikke singulær, men kun svakt kondisjonert på grunn av ikke korrelert mikrofonstøy og uendelig lange impulsresponser på ekkoveiene ved fjern-ende. Konvergensgraden av NMLS-algoritmen er i stor utstrekning avhengig av antallet systembetingelser, slik at mer sofistikerte algoritmer er nødvendig ved stereoakustisk ekkokansellering.

I tillegg til utnyttelse av mere sofistikerte algoritmer, er der problemer med ustabil estimering av ekkoveiene. For å stabilisere løsningen, må korrelasjonen mellom stereokanalene reduseres uten å introdusere forstyrrende forstyrrelser. Forskjellige løsninger for å løse dette har blitt presentert, men disse har blitt'avslått av forskjellige grunner (se f.eks. M.M. Sondhi, D.R. Morgan og J.L. Gall: "Stereophonic acoustic cancellation - an overview of the fundamental Problem"; IEEE Signal Processing Letters, 2(8):148-151, 1995). Den mest lovende løsning for tiden er å forstyrre stereokanalene ikke-lineært (f.eks. J. Benesty, R. Morgan og M.M. Sondhi: "A better understanding and an improved solution to the problem of stereophonic acoustic echo candellation". IEE Trans. On Speech and Audio Processing. To appear; A short version can be found in Proe. of ICASSP 1997, p 303-306) hvor halv-bølge-rektifiserte deler av signalet tilføyes til selve signalet. Denne forstyrrelse ødelegger ikke den stereofoniske mottakelse, men introduserer støy som i hovedsak er ikke hørbar, men som kan registreres avhengig av graden av ikke-linearitet.

Ved transmisjon av akustiske signaler mellom parter i f.eks. en telekommunikasjon, vil en bestemt del av egen-lyden bringes tilbake og etablere et ekko. I de fleste til-feller vil man ha denne ekko i det minste redusert til et nivå som ikke er forstyrrende. Dette oppnås ved hjelp av en såkalt ekkokansellerer. Prinsippet for disse er at en del av egensignalet identifiseres og trekkes fra det mottatte signal. Det er således kjent å benytte ekkokansellering i monotilfeller. Med disse tidligere kjente prinsipper benyttes som inter alia er beskrevet i patentlitteraturen, f.eks. US 5.668.865, US 5.664.011, US 5.610.909. I patent-dokumentene US 5.661.813, US 5.745.45, US 5.323.459, US 5.369.554, US 5.555.310 og US 5.513.265 berøres problemene med stereoakustisk ekkokansellering mer spesifikt.

Den foreliggende oppfinnelse vedrører en fremgangsmåte ved stereoakustisk kansellering, hvor ekkoet dannes på en forbindelse for transmisjon av et stereoakustisk signal. Signalet kodes på sendersiden, F, og dekodes på mottakersiden, N. En perseptuell audiokoding introduseres. Ved perseptuell koding menes at signalene kan bestå av forskjellige frekvenser som overføres samtidig, hvor ett av signalene dominerer over det andre, men gir ingen ytter ligere bidrag til den mottatte informasjon. Videre, benyttes sideinformasjonen av det kodete signal. Ekkoet etter dette kan identifiseres og kanselleres. Ved benyttelse av, f.eks., MPEG-koding, oppnås perseptuell koding som mulig-gjør at kanalkorrelasjonen mellom stereokanalene reduseres. Ved frekvenser over 2 kHz er den perseptuelle koding for-delaktig. Under 2 kHz, kan sideinformasjon benyttes for videre å redusere korrelasjonen. Hvert under-bånd hvortil signalet oppdeles, indikerer utnyttelsen av signalet og kvantifiserer hvilket som anvendes ved kodingen. Kvantifiserer utvelges ved kodingen hvorved et analysert segment av signalet benyttes. Videre benyttes et maskeringsnivå som definerer forstyrrelsesnivåer som ikke kan høres innen segmentet. Maskeringsnivået utvelges slik at en akkurat hørbar forstyrrelse påføres. Ikke-korrelert støy mellom kanalene tilføyes til margin i dekoderen, hvorved en for-bedret ekkokansellering kan oppnås.

Den foreliggende oppfinnelse vedrører videre en anordning ved stereoakustisk ekkokansellering. Et lydregistrer-ingsutstyr på sendesiden, F, registrerer signalet som kodes i en koder, C, og overført til en dekoder D, på mottakersiden,. N. I koderen C utføres en perseptuell koding av signalet. Sideinformasjon i det kodete signal benyttes videre. For identifikasjon av ekkoet og kanselleringen av dette, benyttes en stereoakustisk ekkokansellator, AEC. Perseptuell koding utføres i koderen, C, ved utnyttelse av f.eks. MPEG-koding for reduksjon av kanalkorrelasjon mellom kanalene. Dekoderen analyserer segmentet av signalet for å bestemme et maskeringsnivå som definerer ikke hørbare forstyrrelsesnivåer innen segmentet. Koderen C selekterer videre en kvantifiserer, dq. utvelgelse av maskeringsnivå utføres i dekoderen på en slik måte at en margin til akkurat hørbar forstyrrelse oppnås. Ikke-korrelert støy, mellom kanalene, adderes av dekoderen til signalet.

Den foreliggende oppfinnelse gjør det mulig å utøve fremgangsmåter for kansellering av ekko, over forbindelser hvorover stereotransmisjoner utføres. Introduksjonen av oppfinnelsen er mulig uten tillegg av ekstra utstyr, som kan være dyrt. Ved utnyttelse av perseptuelle kodere/de-kodere gis en mulighet for å implementere løsningen på de-kodersiden, uten at koderen har behov for kjennskap til dette. Løsningen har ytterligere den fordel at en god kondisjonering oppnås, uten introdusering av forstyrrelse, som kan interferere med kommunikasjonen. Fig. 1 illustrerer mikrofon og høyttaler nær-ende, N, respektiv fjern-ende, F. Innen rammen med den brutte linje er den akustiske ekkokansellerer (AEC), i stereo-tifellet. Kun én av returkanalene er vist. Fig. 2 illustrerer fjern-ende rom, stereoakustisk ekkokansellerer, AEC, (stereo AEC) og perseptuell audiokoder, C/D (koder/dekoder). Fig. 3 illustrerer en MPEG-1 sjikt III dekoder. De følgende angivelser har blitt brukt:

pi: PCM input

af: Filter bank analysis

md: MDCT

sq: Scaling device and Quantizer hc: Huffman coding

mp: Multiplexer

dm: Demultiplexer

hd: Huffman decoding

dd: Dequantizer and descaling device im: Inverse MDCT

sfb: Synthesis Filter Bank

po: PCM output

dt: decide masking tresholds

si: side information

di: Decoding of side information b: MPEG layer III bit stream

Fig. 4 illustrerer maskeringsnivå. De prikkete områder maskeres av tonen. Lydtrykket indikeres i dB. Frekvensen indikeres på en log-skala. DN angir dekorrelasjonsstøynivå. Q angir kvantifiserende støynivå.

I det påfølgende beskrives oppfinnelsen på basis av figurene og termene deri. Akustisk ekkokansellering i stereo er betydelig mer vanskelig enn ekkokansellering i mono, på grunn av sterk korrelasjon mellom stereokanalene.

Foreliggende oppfinnelse er basert på anvendelse av en perseptuell audiokoder for å redusere korrelasjonen mellom stereokanalene uten å introdusere hørbar forstyrrelse. Dette vil resultere i at stereokansellereren konvergerer mot de korrekte ekkoveier, og derfor gir en mer stabil ekkokansellering som ikke er avhengig av transmisjonsrommet (fjern-ende). Kjernen i oppfinnelsen er at man kan redusere korrelasjonen under det som audiokoderen gir, ved å modifisere dets dekoder. Ekstra ikke-korrelert støy (mellom kanalene) adderes (i dekoderen) i en slik grad at den ikke er hørbar, av informasjonen fra koderen blir anvendt i kombinasjon med en estimert perseptuell maskeringsnivå.

Løsningen er således fleksibel og krever ikke at anvendelse av kodingsstandarder forandres på noen måte. Kun et lite antall operasjoner er nødvendig å inkludere i dekoderen .

Foreliggende oppfinnelse er basert på at forstyrrelsen introduseres som støytillegg til talesignalet uten å interferere med dette. Videre benyttes kvalitetene av tale/ audiokoderen (f.eks. MPEG-koder) som er på transmisjons-kanalen, C/D, mellom nær-ende og fjern-ende. For formålet benyttes en perseptuell audiokoder, som introduserer effekten at kanalkorrelasjonen reduseres mellom stereokanalene. Koherens vil gå ned til under 0,95 for frekvenser over 2 kHz med MPEG-sjikt III koder. Det tas sikte på en koherens under 0,95 for å kondisjonere løsningen som ekkokansellereren skal finne. Ved frekvenser under 2 kHz er koherensen fremdeles høy, slik at ytterligere modifisering av signalet er nødvendig i området under 2 kHz. For dette formål benyttes sideinformasjon som er i det kodete signal, uten forstyrrende forstyrrelse introduseres. Innen hvert sub-bånd av signalet som dekodes, indikeres utnyttelsen av signalet, samt hvilken kvantifiserer som koderen har be-nyttet. Koderen selekterer kvantifiserer på basis av mengden energi som er i det analyserte segment av talen (eller audiosignalet), og det såkalte maskeringsnivå som indikerer ikke hørbare forstyrrelsesnivåer i segmentet. Seleksjon utføres med kjennskap av at det ofte er en margin til det akkurat hørbare forstyrrelsesnivå. Marginen som er tilbake benyttes ved at ikke-korrelert støy mellom kanalene adderes til signalene. Ved dette mål oppnås en koherens-reduksjon for å finne stabile unike estimater av ekkoveiene i nær-ende, N.

Den mest fordelaktige del i PMEG-1-standarden er sjikt III, som typisk komprimerer stereolyd opptil 12 ganger uten signifikant tap av kvalitet på lyden. Den er inkludert i standarder så som H.310 audiovisuell, bredbåndskommunika-sjonssystem, og H.323 visuelle telefonsystemer og utstyr for lokale nettverk. Sjikt III kodere benyttes vanligvis også som høykvalitetskodere i World Wide Web (WWW).

Den høye kompresjon er mulig ved å fjerne deler i signalet som ikke er hørbare, eller som mangler informasjon for øret. Ved samtidig maskering, vil større frekvens-komponenter screene av mindre i nærliggende frekvensbånd, mens ved temporærmasking, dvs. komponenter like før eller etter (i tidsdomene), screenes en stor lydkomponent av. Audiokoderen estimerer det globale maskeringsnivå, den akkurat hørbare forstyrrelse, som en funksjon av frekvens og tidssegment.

Lyddekoderen opererer parallelt med den globale algoritme for estimering av maskeringen. Signalet av lydkilden oppdeles til 32 kritisk nedsamplete båndpassignaler i en filterbank. I sjikt III økes frekvensseleksjonen idet hvert båndpassignal arbeides med av en diskret kosinustransfor-mering (MDCT). Lengden av MDCT-vinduet er signalavhengig og er enten 6 eller 18, hvor det kortere vindu utnyttes for transienter i lydkilden. MDCT-komponentene skaleres og kvantifiseres etter dekomprimeringen. Nøkkelen for å gi beskjed til koderen er at tilstrekkelig antall kvantifiseringsnivåer i hvert subbånd eksisterer for å holde det introduserte kvantifiserte støy under det globale maskeringsnivå. Dataredundans reduseres ved å benytte Huffman-koding på signalet før det overføres i kanalen.

Når to signaler ikke er identiske, er den introduserte kvantifiseringsstøy i de to kanaler omtrent uavhengig. Dette vil resultere i at korrelasjonen mellom kanalene reduseres. Dekoding utføres i hovedsak på samme måte som koding, men i motsatt rekkefølge.

Korrelasjonen mellom kanalene reduseres enda mer dersom uavhengig støy tilføyes til kanalene. Hver av DCT-båndene kan ikke optimalt kvantifiseres på grunn av store overhead. De oppdeles istedet til fem områder med et definert antall kvantifiseringsnivåer. Å bestemme støy til maskeringsforhold (QMR) som forskjellen mellom nivået av den kvantifiserte støy og nivået som er akkurat hørbar i et gitt MDCT-bånd. Etter det kan støy som ikke er hørbar til-føyes til MDCT hvor QMR er positiv. I frekvensområdene hvor kanalkorrelasjonen trenger å reduseres for å oppfylle

hvor ^<y>jmdc. er MDCT-komponenten i band j og f (.) forsterker støykomponenten v som tilføyes. En blokk som implementerer denne kanaldekorrelasjon tilføyes til dekoderen like før inverteringen av MDCT.

Den globale maskeringsinformasjon er ikke aksessbar i dekoderen, men takket være høy frekvensoppløsning av MDCT, produseres et globalt maskeringsestimat, hvis kalkulerings-kompleksitet forenkles. Uavhengig støy tilføyes deretter før den inverse MDCT i MDCT-komponentene som har tilstrekkelig høy SMR.

Foreliggende oppfinnelse er ikke begrenset til det ovenfor beskrevne eksempel og utførelse, eller til de med-følgende patentkrav, men kan underlegges modifikasjoner innen rammen av oppfinnelsens ide.

Claims

1. Fremgangsmåte ved stereoakustisk ekkokansellering, hvor ekkoet dannes på en forbindelse for transmisjon av et stereoakustisk signal, hvor signalet kodes på sendersiden (F) og dekodes på mottakersiden (N), karakterisert ved at perseptuell audiokoding introduseres, at sideinformasjon i det kodete signal benyttes ved å addere ikke perseptuell støy på respektiv kanal/frekvensbånd, og mengden av støy respektivt hvor i respektive kanal støyen skal adderes reguleres av sideinformasjonen som eksisterer i en bitstrøm fra den perseptuelle audiokoder, og at ekkoet, ved hjelp av støyen, er mulig å identifisere, og dermed mulig å kansellere.

2. Fremgangsmåte i samsvar med krav 1, karakterisert ved at den perseptuelle koding realiseres av f.eks. med MPEG-koding, at den perseptuelle koding muliggjør at kanalkorrelasjonen reduseres mellom stereokanalene.

3. Fremgangsmåte i samsvar med krav 1 og 2, karakterisert ved at den perseptuelle koding med fordel benyttes ved frekvenser som overstiger 2 kHz.

4. Fremgangsmåte i samsvar med krav 1, karakterisert ved at sideinformasjonen fortrinnsvis benyttes ved frekvenser opptil 2 kHz.

5. Fremgangsmåte i samsvar med krav 1-4, karakterisert ved at, for respektive subbånd i signalet, utnyttelsen av signalet og med kvantifisereren som anvendes ved kodingen, indikeres.

6. Fremgangsmåte i samsvar med krav 1, 4 og 5, karakterisert ved at kvantifisereren selekteres ved kodingen på basis av et analysert segment av signalet, og at maskeringsnivå, indikert som ikke hørbar forstyrrelsesnivå innen segmentet selekteres.

7. Fremgangsmåte i samsvar med krav 1, 4, 5 og 6, karakterisert ved at seleksjonen av maskeringsnivået utføres slik at en margin til en akkurat hørbar forstyrrelse oppnås, og at den ukorrelerte støy mellom kanalene tilføyes til marginen.

8. Anordning ved stereoakustisk ekkokansellering, hvor et signal opptas av et lydopptaksutstyr på sendersiden, F, og at signalet kodes i en koder (C), og overføres på en forbindelse til en dekoder (D) på mottakersiden (N), karakterisert ved at koderen (C) er arrangert for å utføre en perseptuell koding av signalet, hvorved den ikke hørbare lyd adderes på respektiv kanal/frekvensbånd, hvor mengden av støy som tilføyes til kanalene, respektivt hvor i kanalene, reguleres av sideinformasjonen i koderen (C) som er arrangert for å utføre den perseptuelle koding, og at en stereoakustisk ekkokansellerer arrangeres for å identifisere ekkoet og redusere det.

9. Anordning i samsvar med krav 8, karakterisert ved at den perseptuelle koding utføres i koderen (C) og at f.eks. MPEG-koding benyttes for reduksjon av kanalkorrelasjon mellom kanalene.

10. Anordning i samsvar med krav 8, karakterisert ved at den stereoakustiske ekkokansellerer (AEC) er arrangert for å analysere segmenter av signalet for å finne et maskeringsnivå definert som ikke hørbare forstyrrelsesnivåer innen segmentet.

11. Anordning i samsvar med krav 8-10, karakterisert ved at koderen (C) er arrangert for å selektere kvantifisereren.

12. Anordning i samsvar med krav 8, 9, 10 eller 11, karakterisert ved at den stereoakustiske ekkokansellerer (AEC) er arrangert for å selektere maskeringsnivået slik at en margin til en akkurat hørbart forstyrrelse oppnås, at den stereoakustiske ekkokansellerer (AEC) er arrangert for å addere en ikke-korrelert støy mellom kanalene, til signalet.