EP2245620B1

EP2245620B1 - Verfahren und mittel zur enkodierung von hintergrundrauschinformationen

Info

Publication number: EP2245620B1
Application number: EP09711709.7A
Authority: EP
Inventors: Stefan Schandl; Panji Setiawan; Herve Taddei
Original assignee: Unify GmbH and Co KG
Current assignee: Unify GmbH and Co KG
Priority date: 2008-02-19
Filing date: 2009-02-02
Publication date: 2017-08-30
Anticipated expiration: 2029-02-02
Also published as: CN101952887B; WO2009103610A1; US20110004471A1; DE102008009718A1; DE102008009718A8; CN101952887A; KR20100123734A; RU2440674C1; EP2245620A1; JP2011515705A; JP5415460B2; US8949121B2; KR101216496B1

Description

Die Erfindung betrifft Verfahren und Mittel zur Enkodierung von Hintergrundrauschinformationen bei Sprachsignalkodierungsverfahren.
Für Telefongespräche ist seit den Anfängen der Telekommunikation eine Bandbreitenbeschränkung für eine analoge Sprachübertragung vorgesehen. Die Sprachübertragung erfolgt auf einem eingeschränkten Frequenzbereich von 300 Hz bis 3400 Hz.
Ein solcher eingeschränkter Frequenzbereich ist auch bei vielen Sprachsignalkodierungsverfahren für die heutige digitale Telekommunikation vorgesehen. Vor einem Kodiervorgang wird hierzu eine Bandbreitenbegrenzung des analogen Signals durchgeführt. Zur Kodierung und zur Dekodierung kommt dabei ein Codec zum Einsatz, welcher aufgrund der beschriebenen Bandbreitenbeschränkung im Frequenzbereich zwischen 300 Hz und 3400 Hz im Folgenden auch als schmalbandiger Sprachcodec (Narrow Band Speech Codec) bezeichnet wird. Unter dem Begriff Codec wird dabei sowohl die Kodiervorschrift zur digitalen Kodierung von Audiosignalen als auch die Dekodiervorschrift zur Dekodierung von Daten mit dem Ziel einer Rekonstruktion des Audiosignals verstanden.
Ein schmalbandiger Sprachcodec ist beispielsweise aus der ITU-T-Empfehlung G.729 bekannt. Mittels der dort beschriebenen Kodiervorschrift ist eine Übertragung eines schmalbandigen Sprachsignals mit einer Datenrate von 8 kbit/s vorgesehen.
Weiterhin sind sogenannte breitbandige Sprachcodecs (Wide Band Speech Codec) bekannt, welche zur Verbesserung des Höreindrucks eine Kodierung eines Audiosignals in einem erweiterten Frequenzbereich vorsehen. Ein derart erweiterter Frequenzbereich liegt z.B. zwischen einer Frequenz von 50 Hz und 7000 Hz. Ein breitbandiger Sprachcodec ist beispielsweise aus der ITU-T-Empfehlung G.729.EV bekannt.
Üblicherweise sind Kodierungsverfahren für breitbandige Sprachcodecs skalierbar gestaltet. Mit einer Skalierbarkeit ist hier gemeint, dass die übertragenen kodierten Daten verschiedene abgegrenzte Blöcke enthalten, welche den schmalbandigen Anteil, den breitbandigen Anteil und/oder die volle Bandbreite des kodierten Sprachsignals enthalten. Eine solche skalierbare Gestaltung gestattet einerseits eine empfängerseitige Abwärtskompatibilität und andererseits bietet sie eine einfache Möglichkeit, im Falle von eingeschränkten Datenübertragungskapazitäten im Übertragungskanal eine sender- und empfängerseitige Anpassung der Datenrate und der Größe von übertragenen Datenrahmen vorzunehmen.
Für eine Reduzierung der Datenübertragungsrate durch einen Codec ist üblicherweise eine Komprimierung der zu übertragenden Daten vorgesehen. Eine Komprimierung wird beispielsweise durch Kodierungsverfahren erreicht, bei denen zur Kodierung der Sprachdaten Parameter für ein Anregungssignal und Filterparameter bestimmt werden. Die Filterparameter sowie das Anregungssignal spezifizierende Parameter werden dann an den Empfänger übertragen. Dort wird mithilfe des Codecs ein synthetisches Sprachsignal synthetisiert, das dem ursprünglichen Sprachsignal hinsichtlich eines subjektiven Höreindrucks möglichst ähnlich ist. Mit Hilfe dieses auch als »Analysis-by-Synthesis« bezeichneten Verfahrens werden nicht die ermittelten und digitalisierten Abtastwerte (Samples) selbst übertragen, sondern ermittelte Parameter, die eine empfängerseitige Synthese des Sprachsignals ermöglichen.
Eine weitere Maßnahme zur Reduzierung der Datenübertragungsrate bietet ein Verfahren zur diskontinuierlichen Übertragung (Discontinuous Transmission), welches in der Fachwelt auch unter dem Begriff DTX geläufig ist. Dokument US 2008/0027716 A1 offenbart eine DTX Signalisierung. Das grundsätzliche Ziel von DTX ist eine Reduzierung der Datenübertragungsrate im Fall einer Sprechpause.
Hierzu kommt auf Seiten des Senders eine Sprechpausenerkennung (Voice Activity Detection, VAD) zum Einsatz, welche bei Unterschreiten eines bestimmten Signalpegels auf eine Sprechpause erkennt.
Üblicherweise wird vom Empfänger während einer Sprechpause keine völlige Stille erwartet. Im Gegenteil würde eine völlige Stille empfängerseitig zu Irritationen oder sogar zur Vermutung eines Verbindungsabbaus führen. Aus diesem Grund werden Verfahren zur Erzeugung eines sogenannten Komfortrauschen (Comfort Noise) angewandt.
Bei einem Komfortrauschen handelt es sich um Rauschen, welches zur Füllung von Stillephasen auf Seiten des Empfängers synthetisiert wird. Das Komfortrauschen dient einem subjektiven Eindruck einer weiter bestehenden Verbindung, ohne die für die Übertragung von Sprachsignalen vorgesehene Datenübertragungsrate zu beanspruchen. Mit anderen Worten wird zur senderseitigen Kodierung des Rauschens ein geringerer Aufwand als zur Kodierung der Sprachdaten betrieben. Für eine empfängerseitig noch als realistisch empfundene Synthetisierung des Komfortrauschens werden Daten mit einer weitaus niedrigeren Datenrate übertragen. Die hierbei übertragenen Daten werden in der Fachwelt auch als SID (Silence Insertion Description) bezeichnet.
Gegenwärtige skalierbare Kodierungsverfahren für breitbandige Sprachcodecs sehen derzeit keine Verfahren zur diskontinuierlichen Übertragung vor.
Im Stand der Technik bestehen Probleme mit einer Anwendung des diskontinuierlichen Übertragung (DTX) in Verbindung mit einem Komfortrauschgenerator auf Empfängerseite (CNG Comfort Noise Generator).
Derzeit bekannte Verfahren zur diskontinuierlichen Übertragung sehen eine Übermittlung SID-Rahmen mit aktualisierten Parametern zur Charakterisierung des Hintergrundrauschens nur dann vor, wenn seitens des Enkoders signifikante Änderungen in der Energie des Hintergrundrauschens während einer inaktiven Sprachperiode (Sprechpause) detektiert werden. Dies betrifft sowohl schmalbandige (50Hz bis 4kHz) als auch breitbandige Sprachcodecs, welche Verfahren zur diskontinuierlichen Übertragung unterstützen. Üblicherweise wird bei der Entscheidung, einen SID-Rahmen mit aktualisierten Parametern zu übermitteln, ein im Dekoder spezifizierter Energiegrenzwert (Energy Threshold) herangezogen. Dies führt dazu, dass bei einer Nichtüberschreitung des definierten Energiegrenzwertes keine SID-Rahmen gesendet werden. Seitens des Übertragungsnetzwerks zwischen Empfänger und Sender wird jedoch ein derartiges Aussetzen des Sendens von SID-Rahmen als Ruhezustand bzw. »Idle Channel« angesehen. Zur Gewährleistung einer Aufrechterhaltung der Verbindung (»Connection Alive«) ist dann eventuell ein zusätzlicher Datenaustausch erforderlich, um anzuzeigen, dass die Verbindung aufrechterhalten werden soll.
Ein bekannter zusätzlich vorgesehener Datenaustausch erfolgt derzeit in der Weise, dass administrative Stellen im Netzwerkmanagement des Übertragungsnetzwerks den sendenden Knoten, d.h. den sendenden Enkoder auffordern, den zuletzt übermittelten SID-Rahmen erneut zu übermitteln, falls die verstrichene Leerlaufzeit (»Idle Period«) zum letzten gesendeten SID-Rahmen als zu lang für die entsprechende Verbindung erachtet wird. Für eine solche erneute Übermittlung werden Parameter des erneut gesendeten SID-Rahmens nicht aktualisiert. Der Enkoder führt also keine zusätzlichen Aktionen aus.
Aufgabe der Erfindung ist es, eine verbesserte Implementierung der diskontinuierlichen Übertragung in skalierbaren Sprachcodecs anzugeben.
Die Aufgabe wird durch den Gegenstand der unabhängigen Ansprüche gelöst.
Ein Grundgedanke der Erfindung besteht darin, den Enkoder eines Sprachcodecs so auszugestalten, dass dieser nach einer zuvor ermittelten Leerlaufzeit (»Idle Period«) eine erneute Ermittlung bzw. Berechnung von Parameter über das Hintergrundrauschen, insbesondere der gemittelten Energie und der Autokorrelationsfunktion, vornimmt. Die besagte Ermittlung der Hintergrundrauschparameter entspricht mit anderen Worten einer Enkodierung des Rauschsignals. Administrative Stellen im Netzwerk informieren den Enkoder dabei über die im Übertragungsnetzwerk eingestellte Leerlaufzeit. Der Enkoder bestimmt also die Leerlaufzeit z.B. durch Anfrage administrativer Stellen im Übertragungsnetzwerk. Eine solche Anfrage ist nur einmal notwendig, wenn die ermittelte Leerlaufzeit seitens des Enkoders gespeichert wird.
Eine Einstellung eines zeitlichen Abstands für zu sendende SID-Rahmen gestattet es administrativen Stellen im Übertragungsnetzwerk, den Enkoder zu einem Senden eines aktualisierten Rahmens zu zwingen. Dies garantiert sowohl eine Aktualisierung zugunsten einer besseren Rekonstruktion des Hintergrundrauschens im CNG als auch ein zuverlässigeres Halten der Verbindung.
Ein Vorteil des erfindungsgemäßen Verfahrens besteht darin, dass zur Entscheidung, ob aktualisierte Hintergrundrauschparameter in Form eines aktualisierten SID-Rahmen gesendet werden sollen, kein Vergleich der Energie des Hintergrundrauschsignals mit einem Energiegrenzwert erforderlich ist. Das Verfahren spart somit Rechenressourcen gegenüber den bekannten Verfahren.
Ein weiterer Vorteil besteht darin, dass die eingestellte Zeitdauer zwischen zwei SID-Rahmen mit den Erfordernissen des jeweiligen Übertragungsnetzwerks übereinstimmt.
Vorteilhafte Weiterbildungen und Ausgestaltungen der Erfindung sind Gegenstand der Unteransprüche.
Eine vorteilhafte Ausgestaltung der Erfindung sieht eine SID-Struktur (SID Bitstream Structure) bei der der schmalbandige Anteil der Hintergrundrauschinformation vom breitbandigen Anteil der Hintergrundrauschinformation getrennt ist. Eine getrennte Behandlung von schmalbandiger und breitbandiger Hintergrundrauschinformation in einem SID-Rahmen ermöglicht eine getrennte Enkodierung des schmalbandigen und des breitbandigen Anteils des Hintergrundrauschens und macht die Bearbeitung transparent. Diese Ausgestaltung hat weiterhin den Vorteil, dass empfängerseitig bestimmt werden kann, ob ein Komfortrauschen auf Basis des breitbandigen Anteils der übertragenen SID-Rahmen oder auf Basis des schmalbandigen Anteils erfolgen soll. Dies ist von besonderem Vorteil für die empfängerseitige akustische Rezeption in einer Situation, in der die Übertragungsrate für Sprachinformationsrahmen derart verringert wurde, dass nur noch schmalbandige Sprachinformationen übertragen werden. Wird nämlich, wie im derzeitigen Stand der Technik, schmalbandige Sprachinformationen in Verbindung mit breitbandigem Rauschen synthetisiert, ist dies für den Empfänger sehr irritierend. Die besagte Verringerung der Übertragungsrate für Sprachinformationsrahmen kann zum Beispiel durch eine hohe Auslastung (Congestion) des Netzwerks zwischen Sender und Empfänger verursacht sein. Die wesentlich kleineren SID-Rahmen sind von einem solchen Netzwerkengpass nicht betroffen. Für sie besteht also weder ein Zwang zur Reduzierung ihrer Datenübertragungsrate noch ihres Inhalts.
Eine vorteilhafte Ausgestaltung der Erfindung sieht vor, dass zur Bestimmung der Hintergrundrauschparameter des schmalbandigen ersten Anteils des Hintergrundrauschens Energie und Autokorrelationsfunktion des Hintergrundrauschens ermittelt werden. Im schmalbandigen Anteil ist eine Mittlung über einen relativ langen Zeitraum einer Sprechpause notwendig, in der Praxis über einen Zeitraum von z.B. 100 ms. Die verwendeten Berechnungsgrößen gemäß dieser Ausführungsform umfassen dabei die Energie (nicht die logarithmierte Energie) und die Autokorrelationsfunktion.
Zu Beginn eines Zeitabschnitts, welcher als inaktiv bzw. als Sprechpause klassifiziert ist, wird gemäß einer weiteren vorteilhaften Ausgestaltung der Erfindung eine zusätzliche Überhangperiode (Hangover Period) eingeführt. Die neu eingeführte Überhangperiode, im Folgenden: DTX-Überhangperiode dient im Vergleich zur bisher bekannten VAD- Überhangperiode (Voice Activity Detection) einem weiteren bislang unbekannten Zweck. Während beide Arten von Überhangperiode das Ziel verfolgen, mehrere Rahmen als aktive Sprachrahmen zu kennzeichnen und damit eine falsche Klassifizierung am Ende eines Sprachsignals zu vermeiden, hat die DTX-Überhangperiode den zusätzlichen Zweck, Informationen über das Hintergrundrauschen zu erheben.
Eine vorteilhafte Ausgestaltung der Erfindung sieht vor, dass der breitbandige zweite Anteil gedämpft wird. Die Dämpfung des breitbandigen Anteils spielt eine Rolle bei der Dämpfung des gesamten Energieanteils im breitbandigen Anteil. Diese Maßnahme ist aufgrund der Tatsache notwendig, dass der Generator zur Erzeugung (synthetisieren) des Komfortrauschens im Dekoder nicht in der Lage ist, dieselben Rauscheigenschaften zu produzieren als das Originalhintergrundrauschen im Enkoder.
Eine vorteilhafte Ausgestaltung der Erfindung sieht vor, dass auf das gesamte Hintergrundrauschsignal, also der Kombination aus breitbandigen und schmalbandigen Anteil, eine nachgeschaltete Betonungsminderungsfilterung (»De-emphasis Post Filter«) angewandt wird. Das »De-Emphasis Post Filter« führt zu einer Betonungsminderung (De-Emphasis) der Energie und der höheren Frequenzkomponenten. Da die Mittelung in bestimmter Weise die spektrale Einhüllende deformiert, kann diese Dämpfung in vorteilhafter Weise dazu beitragen, den störenden Effekt eines gestörten breitbandigen Rauschens auf einen menschlichen Empfänger zu reduzieren.
Ein Ausführungsbeispiel mit weiteren Vorteilen und Ausgestaltungen der Erfindung wird im Folgenden anhand der Zeichnung näher erläutert.
Dabei zeigt die einzige FIG eine zeitliche Darstellung eines Übergangs von einem als Sprache klassifizierten zu einem als Hintergrundrauschen klassifizierten Eingangssignal an einem Dekoder.
Im Folgenden wird der der Erfindung zugrundeliegende technische Hintergrund, zunächst ohne Bezugnahme auf die Zeichnung, näher beschrieben.
Im Stand der Technik bestehen Probleme mit einer Anwendung des diskontinuierlichen Übertragung (DTX) in Verbindung mit einem Komfortrauschgenerator auf Empfängerseite (CNG Comfort Noise Generator). Während der DTX/CNG-Operation müssen folgende Überlegungen berücksichtigt werden:

1. Seitens des CNG ist eine geeignete Erzeugung des Hintergrundrauschens bzw. Komfortrauschens erforderlich, welche von einem Zuhörer auf Empfängerseite als realistisch aufgefasst werden soll. Im Falle von breitbandigen Sprachcodecs, also beispielsweise Sprachcodecs mit einer Bandbreite zwischen Frequenzen von 50 Hz und 7 kHz, wird eine Generierung eines breitbandigen Rauschens als eine Verschlechterung angesehen. Darüber hinaus ist der Charakter bzw. »die Farbe« des Hintergrundrauschens auf Dekoder- und Enkoderseite nicht immer gleich, sodass gegenwärtige Lösungen, welche eine Mittelwertbildung der Energie und der spektralen Einhüllenden vorsehen, eine Verfälschung der ursprünglichen Hintergrundrauschinformation bewirken.
2. Das DTX-Verfahren übermittelt nur dann aktualisierte SID-Rahmen wenn seitens des Enkoders signifikante Änderungen in der Energie des Hintergrundrauschens während einer inaktiven Sprachperiode (Sprechpause) detektiert werden. Dies betrifft sowohl schmalbandige (50Hz bis 4kHz) als auch breitbandige Sprachcodecs, welche das DTX/CNG-Verfahren unterstützen. Üblicherweise spielt dabei ein Energiegrenzwert (Energy Threshold) eine zentrale Rolle. Dies führt dazu, dass bei einer Nichtüberschreitung eines definierten Energiegrenzwertes keine SID-Rahmen gesendet werden. Seitens des Übertragungsnetzwerks zwischen Empfänger und Sender wird jedoch ein derartiges Aussetzen des Sendens von SID-Rahmen als Ruhezustand bzw. »Idle Channel« angesehen. Zur Gewährleistung einer Aufrechterhaltung der Verbindung (»Connection Alive«) ist dann eventuell ein zusätzlicher Datenaustausch erforderlich, um anzuzeigen, dass die Verbindung aufrechterhalten werden soll.

Derzeit wird mit dem oben genannten Problemen wie folgt umgegangen:

Zu 1.: Die den breitbandigen Anteil betreffende Information wird in dem SID-Rahmen enkodiert. Dabei werden die gemittelte logarithmische Energie und die gemittelte Immitance Spectral Frequency (ISF) zur Beschreibung des breitbandigen Hintergrundrauschens herangezogen, z.B. in den Sprachcodecs G.722.2 und AMR-WB. Es ist dabei keine getrennte Behandlung eines unteren Teils und eines oberen Teils des breitbandigen Hintergrundrauschens vorgesehen. Der schmalbandige Sprachcode G.729 verwendet eine gemittelte logarithmische Energie und eine gemittelte Autokorrelationsfunktion. Die Mittelungsperiode für die Energie und die Mittelungsperiode für die Autokorrelationsfunktion stimmen dabei nicht überein.
Zu 2.: Administrative Stellen im Netzwerkmanagement fordern den sendenden Knoten, d.h. den sendenden Enkoder auf, den zuletzt übermittelten SID-Rahmen erneut zu übermitteln, falls die »Idle Period« als zu lang für die zugehörige Verbindung erachtet wird. Der erneut gesendete SID-Rahmen und die darin enthaltene Information wird daher nicht aktualisiert. Der Enkoder führt also keine zusätzlichen Aktionen aus.

Das erfinderische Verfahren sieht vor, den Enkoder so auszugestalten, dass dieser nach einer bestimmten gegebenen Zeit eine erneute Berechnung der gemittelten Energie und der Autokorrelationsfunktion vornimmt. Administrative Stellen im Netzwerk informieren den Enkoder dabei über die benötigte Idle Time.
Im Folgenden werden weitere Ausführungsformen zur Generierung des SID-Rahmens beschrieben.
Eine SID-Struktur (SID Bitstream Structure) bei der der schmalbandige Anteil der Hintergrundrauschinformation vom breitbandigen Anteil der Hintergrundrauschinformation getrennt ist, wird erzeugt. Eine getrennte Behandlung von schmalbandiger und breitbandiger Hintergrundrauschinformation in einem SID-Rahmen ermöglicht eine getrennte Enkodierung des schmalbandigen und des breitbandigen Anteils des Hintergrundrauschens und macht die Bearbeitung transparent.
Im schmalbandigen Anteil ist eine Mittlung über einen relativ langen Zeitraum einer Sprechpause notwendig, in der Praxis über einen Zeitraum von z.B. 100 ms. Die verwendeten Berechnungsgrößen umfassen dabei die Energie (nicht die logarithmierte Energie) und die Autokorrelationsfunktion. Die Autokorrelationsfunktion wird benutzt für eine spektrale Hüllkurvenpräsentation. Ein Gesamtverstärkungsfaktor kann dabei durch eine Kombination aller Verstärkungs- und Mittlungsmethoden kompensiert werden. Die Werte für die Autokorrelationsfunktion werden durch Summierung oder Mittelwertbildung jeweils normiert (Equally Weighted). Dies betrifft alle SID-Rahmen. Eine relativ lange Mittelung (Averaging) des schmalbandigen Anteils führt zu einer Glättung der schmalbandigen Energie und der spektralen Einhüllenden, sodass eine plötzliche Energieänderung keinen merklichen Einfluss auf die Synthetisierung des Komfortrauschens im Empfänger zeitigt. Dieselbe Mittelungsperiode wird sowohl für die Energie als auch zur Mittelung der spektralen Einhüllenden verwendet, nachdem ein erster SID-Rahmen nach einem Einsetzen eines Sprachsignals (Speak Burst) erzeugt wird. Diese Maßnahme sichert eine konsistentere Abschätzung des schmalbandigen Hintergrundrauschens während einem Übergang von einer Sprachperiode in eine Sprechpause.
Im Folgenden wird auf die FIG Bezug genommen. Die FIG zeigt ein Sprachsignal (Speech Burst), dass zu einem bestimmten Zeitpunkt t einen bestimmten Signalpegel, Threshold, in der Zeichnung als strichlierte Linie dargestellt, unterschreitet. Die Ordinate ist als Pegel oder als Energiewert des Signals zu verstehen. Hierzu kommt auf Seiten des Senders eine Sprechpausenerkennung (Voice Activity Detection, VAD) zum Einsatz, welche bei Unterschreiten des Thresholds auf eine Sprechpause erkennt. Das VAD-Verfahren sieht eine bekannte Überhangperiode VAD-HO vor, in welcher weiterhin aktive Sprachrahmen gesendet werden und erst nach üblicherweise zwei Rahmenlängen in einen Modus überwechselt, der eine Generierung von SID-Rahmen vorsieht.
Gemäß der hier beschriebenen Ausführungsform der Erfindung wird eine zusätzliche Überhangperiode DTX-HO eingeführt. Die neue Überhangperiode DTX-HO schließt sich an die bislang bekannte Überhangperiode VAD-HO an, welche als »Black Box« verwendet wird. Während dieser Überhangperiode DTX-HO wird das im Enkoder bearbeitete Signal immer noch als Sprachsignal klassifiziert, während parallel dazu bereits eine Bestimmung von Hintergrundrauschparametern beginnt. Die Datenrate der Sprachkodierung ist bereits reduziert, da zu Beginn einer Sprechpause keine hochqualitative Enkodierung benötigt wird. Weiterhin wird für den schmalbandigen Anteil ein Teil der Überhangperiode benutzt für die Mittelwertbildung des ersten SID-Rahmens. Die vorgenannten Ausführungen beziehen sich vorzugsweise auf die letzten Rahmen FRAMES innerhalb einer Überhangperiode DTX-HO, VAD-HO. Die Information der ersten Rahmen der Überhangperiode wird dagegen vorzugsweise nicht benutzt.
Die neu eingeführte Überhangperiode DTX-HO dient im Vergleich zur bisher von Bedürfnissen der Voice Activity Detection motivierten bekannten Überhangperiode VAD-HO einem weiteren bislang nicht beachteten Zweck. Während beide Arten von Überhangperioden DTX-HO, VAD-HO das Ziel verfolgen, mehrere Rahmen als aktive Sprachrahmen zu kennzeichnen und damit eine falsche Klassifizierung am Ende eines Sprachsignals zu vermeiden, hat die DTX-Überhangperiode DTX-HO den zusätzlichen Zweck, Informationen über das Hintergrundrauschen zu erheben.
Bezüglich des verfolgten Ziels, eine falsche Klassifizierung am Ende eines Sprachsignals zu vermeiden, stellt die neue Überhangperiode DTX-HO eine zusätzliche Versicherung dar, dass nach Ablauf der Überhangperiode DTX-HO definitiv ein Hintergrundrauschen und keine Sprachsignale am Eingang des Dekoders anliegen. Bei einer bisherigen Verwendung der bekannten Überhangperiode VAD-HO konnte nicht ausgeschlossen werden, dass es sich bei dem anliegenden Signal exklusiv nur um Hintergrundrauschen handelte. In der Praxis konnten während dieser bekannten Überhangperiode VAD-HO noch Sprachanteile (Speech Bursts) auftreten. Im Übrigen dient die neue Überhangperiode DTX-HO ausschließlich zur Anlernung des Hintergrundrauschens.
Bezüglich der Wahl der Zeitdauer dieser Überhangperioden DTX-HO, VAD-HO und damit der Wahl der Anzahl an Rahmen FRAMES ist eine vorteilhafte Einstellung z.B. so zu wählen, dass eine Zeitdauer von zwei Rahmen - vgl. gestrichelte Achse FRAMES - für die bekannte Überhangperiode VAD-HO und eine Zeitdauer von fünf Rahmen für die neue Überhangperiode DTX-HO vorgesehen ist.
Im breitbandigen Anteil wird eine Energiedämpfung ausgeführt. Die Dämpfung des breitbandigen Anteils spielt eine Rolle bei der Dämpfung des gesamten Energieanteils im breitbandigen Anteil. Diese Maßnahme ist aufgrund der Tatsache notwendig, dass der Generator zur Erzeugung (synthetisieren) des Komfortrauschens im Dekoder nicht in der Lage ist, dieselben Rauscheigenschaften zu produzieren als das Originalhintergrundrauschen im Enkoder.
Auf das ausgegebene Breitbandsprachsignal, also der Kombination aus breitbandigen und schmalbandigen Anteil, wird eine nachgeschaltete Betonungsminderungsfilterung (»De-emphasis Post Filter«) angewandt. Diese Filterung dämpft hauptsächlich höhere Frequenzkomponenten. Das »De-Emphasis Post Filter« führt weiterhin zu einer Betonungsminderung (De-Emphasis) der Energie und der höheren Frequenzkomponenten. Da die Mittelung in bestimmter Weise die spektrale Einhüllende deformiert, kann diese Dämpfung dazu beitragen, den störenden Effekt eines gestörten breitbandigen Rauschens auf einen menschlichen Empfänger zu reduzieren.

Claims

Verfahren zur Generierung von SID-Rahmen für eine diskontinuierliche Übertragung von Hintergrundrauschparametern über ein Übertragungsnetzwerk, mit dem in der Telekommunikation Audiosignale von einem Sender an einen Empfänger übertragen werden, wobei bei dem Verfahren eine periodenweise Ermittlung von Hintergrundrauschparametern und eine auf Basis der ermittelten Hintergrundrauschparameter erfolgende Generierung und Übersendung von SID-Rahmen vorgesehen ist,
wobei die Periode einer ermittelten, im Übertragungsnetzwerk eingestellten Leerlaufzeit (Idle Period) des Übertragungsnetzwerks entspricht.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass als Audiosignal ein Sprachsignal verwendet wird.
Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass zur Entscheidung, ob die Hintergrundrauschparameter in Form eines der SID-Rahmen übersandt werden sollen, anstelle eines Vergleichs der Energie eines Hintergrundrauschsignals mit einem Energiegrenzwert eine Einstellung eines zeitlichen Abstandes zwischen zwei zu übersendenden SID-Rahmen erfolgt.
Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, dass Hintergrundrauschparameter eines schmalbandigen ersten Anteils und eines breitbandigen zweiten Anteils ermittelt werden und dass die Generierung des SID-Rahmens mit getrennten Bereichen für den ersten und den zweiten Anteil erfolgt.
Verfahren nach Anspruch 4, dadurch gekennzeichnet, dass seitens des Empfängers bestimmt wird, ob ein Komfortrauschen auf Basis des breitbandigen zweiten Anteils der übertragenen SID-Rahmen oder auf Basis des schmalbandigen ersten Anteils erfolgen soll.
Verfahren nach Anspruch 4 oder 5, dadurch gekennzeichnet, dass zur Bestimmung der Hintergrundrauschparameter des schmalbandigen ersten Anteils des Hintergrundrauschens Energie und Autokorrelationsfunktion des Hintergrundrauschens ermittelt werden.
Verfahren nach Anspruch 6, dadurch gekennzeichnet, dass die Hintergrundrauschparameter des schmalbandigen ersten Anteils über einen Zeitraum um 100 Millisekunden gemittelt werden.
Verfahren nach Anspruch 6 oder 7, dadurch gekennzeichnet, dass anstelle einer logarithmierten Energie des Hintergrundrauschens die Energie des Hintergrundrauschens ermittelt wird.
Verfahren nach einem der vorgenannten Ansprüche, dadurch gekennzeichnet, dass beim Übergang von einem als Sprache kategorisierten Signal zu einem als Hintergrundrauschen kategorisierten Signal eine zusätzliche Überhangperiode (Hangover Period, DTX-HO) vorgesehen ist, während der eine Bestimmung von Hintergrundrauschparametern erfolgt.
Verfahren nach Anspruch 9, dadurch gekennzeichnet, dass sich die zusätzliche Überhangperiode (DTX-HO) an eine bekannte Überhangperiode (VAD-HO) anschließt, in welcher weiterhin aktive Sprachrahmen gesendet werden.
Verfahren nach Anspruch 10, dadurch gekennzeichnet, dass die zusätzliche Überhangperiode (DTX-HO) und die bekannte Überhangperiode (VAD-HO) jeweils Rahmen (FRAMES) aufweisen und die Anzahl der Rahmen (FRAMES) derart gewählt wird, dass eine Zeitdauer von zwei Rahmen für die bekannte Überhangperiode (VAD-HO) und eine Zeitdauer von fünf Rahmen für die zusätzliche Überhangperiode (DTX-HO) vorgesehen wird.
Verfahren nach einem der Ansprüche 4 bis 9, dadurch gekennzeichnet, dass der breitbandige zweite Anteil gedämpft wird.
Verfahren nach einem der vorgenannten Ansprüche, dadurch gekennzeichnet, dass auf das gesamte Hintergrundrauschsignal eine nachgeschaltete Betonungsminderungsfilterung (De-Emphasis Post Filter) angewandt wird.
Codec mit Mitteln zur Durchführung des Verfahrens nach einem der Ansprüche 1 bis 13.
Codec nach Anspruch 14, gekennzeichnet durch eine Implementierung im an sich bekannten ITU-T Standard G.729.1 (05/06) .