EP2245620B1 - Verfahren und mittel zur enkodierung von hintergrundrauschinformationen - Google Patents

Verfahren und mittel zur enkodierung von hintergrundrauschinformationen Download PDF

Info

Publication number
EP2245620B1
EP2245620B1 EP09711709.7A EP09711709A EP2245620B1 EP 2245620 B1 EP2245620 B1 EP 2245620B1 EP 09711709 A EP09711709 A EP 09711709A EP 2245620 B1 EP2245620 B1 EP 2245620B1
Authority
EP
European Patent Office
Prior art keywords
background noise
frames
period
speech
energy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
EP09711709.7A
Other languages
English (en)
French (fr)
Other versions
EP2245620A1 (de
Inventor
Stefan Schandl
Panji Setiawan
Herve Taddei
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unify GmbH and Co KG
Original Assignee
Unify GmbH and Co KG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Unify GmbH and Co KG filed Critical Unify GmbH and Co KG
Publication of EP2245620A1 publication Critical patent/EP2245620A1/de
Application granted granted Critical
Publication of EP2245620B1 publication Critical patent/EP2245620B1/de
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes

Definitions

  • the invention relates to methods and means for encoding background noise information in speech signal coding methods.
  • Such a limited frequency range is also provided in many speech signal coding methods for today's digital telecommunications.
  • a bandwidth limitation of the analog signal Prior to a coding process, a bandwidth limitation of the analog signal is performed for this purpose.
  • a codec is used which, due to the described bandwidth limitation in the frequency range between 300 Hz and 3400 Hz, is also referred to below as narrow-band speech codec (Narrow Band Speech Codec).
  • the term codec is understood to mean both the coding rule for the digital coding of audio signals and the decoding rule for the decoding of data with the aim of reconstructing the audio signal.
  • a narrowband speech codec is known, for example, from ITU-T Recommendation G.729.
  • a transmission of a narrowband speech signal with a data rate of 8 kbit / s is provided.
  • broadband speech codecs Wide Band Speech Codec
  • Such an extended frequency range is e.g. between a frequency of 50 Hz and 7000 Hz.
  • a wideband speech codec is known from ITU-T Recommendation G.729.EV.
  • coding methods for broadband speech codecs are made scalable.
  • scalability it is meant here that the transmitted coded data includes various demarcated blocks containing the narrowband portion, the wideband portion and / or the full bandwidth of the coded voice signal.
  • such a scalable design allows for backward compatibility on the receiver side and, on the other hand, offers a simple possibility of adapting the data rate and the size of transmitted data frames in the transmission channel in the case of limited data transmission capacities in the transmission channel.
  • a compression of the data to be transmitted For a reduction of the data transmission rate by a codec is usually provided a compression of the data to be transmitted. Compression is achieved, for example, by coding methods in which parameters for an excitation signal and filter parameters are determined for coding the speech data. The filter parameters and parameters specifying the excitation signal are then transmitted to the receiver. There, a synthetic speech signal is synthesized using the codec, which is as similar as possible to the original speech signal in terms of a subjective hearing impression. With the help of this method, also known as "analysis-by-synthesis", the determined and digitized samples are not transmitted, but determined parameters that allow a receiver-side synthesis of the speech signal.
  • a further measure for reducing the data transmission rate is provided by a method for discontinuous transmission (Discontinuous Transmission), which is also familiar in the art under the term DTX.
  • Discontinuous Transmission a method for discontinuous transmission
  • document US 2008/0027716 A1 discloses a DTX signaling.
  • the basic goal of DTX is to reduce the data transfer rate in the event of a speech break.
  • a pause detection (Voice Activity Detection, VAD) is used on the part of the transmitter, which recognizes when a certain signal level falls below a speech break.
  • VAD Voice Activity Detection
  • Comfort noise is noise that is synthesized to fill silence phases on the receiver's side.
  • the comfort noise serves as a subjective impression of a continuing connection, without claiming the data transmission rate intended for the transmission of speech signals. In other words, less effort is required to code the speech data for the transmitter-side coding of the noise. For a receiver-side still perceived as realistic synthesizing the comfort noise data are transmitted at a much lower data rate.
  • the data transmitted here will be Also referred to in the art as SID (Silence Insertion Description).
  • discontinuous transmission methods provide for transmission of SID frames with updated background noise characterization parameters only when significant changes in background noise energy during an inactive speech period (silence) are detected by the encoder. This applies to both narrowband (50Hz to 4kHz) and wideband speech codecs which support discontinuous transmission techniques.
  • an Energy Threshold specified in the decoder is used. This means that no SID frames are sent if the defined energy limit is not exceeded.
  • a suspension of transmission of SID frames is regarded as idle channel.
  • additional data exchange may be required to indicate that the connection is to be maintained.
  • a well-known additional data exchange currently takes place in such a way that administrative bodies in the network management of the transmission network are the sending node, i. request the sending encoder to retransmit the last transmitted SID frame if the elapsed idle period to the last SID frame sent is considered too long for the corresponding connection. For such retransmission, parameters of the retransmitted SID frame are not updated. The encoder does not perform any additional actions.
  • the object of the invention is to provide an improved implementation of the discontinuous transmission in scalable speech codecs.
  • a basic idea of the invention is to design the encoder of a speech codec in such a way that, after a previously determined idle period, it carries out a new determination or calculation of parameters via the background noise, in particular the averaged energy and the autocorrelation function. Said determination of the background noise parameters in other words corresponds to an encoding of the noise signal.
  • Administrative authorities in the network inform the encoder about the idle time set in the transmission network. The encoder thus determines the idle time, for example by requesting administrative bodies in the transmission network. Such a request is necessary only once if the determined idle time is stored by the encoder.
  • An advantage of the method according to the invention is that in order to decide whether to send updated background noise parameters in the form of an updated SID frame, no comparison of the energy of the background noise signal with an energy limit value is required.
  • the method thus saves computational resources compared with the known methods.
  • Another advantage is that the set period of time between two SID frames complies with the requirements of the respective transmission network.
  • An advantageous embodiment of the invention provides a SID structure (SID Bitstream Structure) in which the narrowband portion of the background noise information is separated from the broadband portion of the background noise information.
  • SID Bitstream Structure SID Bitstream Structure
  • Separate handling of narrowband and broadband background noise information in a SID frame enables separate encoding of the narrowband and wideband portions of the background noise and makes the processing transparent.
  • This embodiment also has the advantage that it can be determined on the receiver side whether comfort noise is based on the broadband component of the transmitted data SID framework or on the basis of the narrowband component. This is of particular advantage for the receiver-side acoustic reception in a situation where the transmission rate for speech information frames has been reduced such that only narrowband speech information is transmitted.
  • An advantageous embodiment of the invention provides that energy and autocorrelation function of the background noise are determined to determine the background noise parameters of the narrowband first portion of the background noise.
  • the narrowband portion requires averaging over a relatively long period of speech break, in practice over a period of e.g. 100 ms.
  • the calculation quantities used according to this embodiment include the energy (not the logarithmic energy) and the autocorrelation function.
  • an additional overhang period (hangover period) is introduced according to a further advantageous embodiment of the invention.
  • the newly introduced overhang period in the following: DTX overhang period serves another previously unknown purpose compared to the previously known VAD overhang period (Voice Activity Detection). While both types of overhanging period aim to identify multiple frames as active speech frames and thus avoid misclassification at the end of a speech signal, the DTX overhang period has the additional purpose of gathering information about the background noise.
  • An advantageous embodiment of the invention provides that the broadband second component is attenuated.
  • the attenuation of the broadband component plays a role in the attenuation of the entire energy component in the broadband component. This measure is necessary due to the fact that the generator for generating (synthesizing) the comfort noise in the decoder is unable to produce the same noise characteristics as the original background noise in the encoder.
  • An advantageous embodiment of the invention provides that is applied to the entire background noise signal, ie the combination of broadband and narrowband portion, a downstream emphasis reduction filter ("De-emphasis Post Filter”).
  • the "De-Emphasis Post Filter” leads to a de-emphasis of the energy and the higher frequency components. Since the averaging deforms the spectral envelope in a certain way, this attenuation can advantageously contribute to reducing the disturbing effect of a disturbed broadband noise on a human receiver.
  • the single FIGURE shows a temporal representation of a transition from a classified as a speech to a classified as background noise input signal to a decoder.
  • the inventive method provides for designing the encoder so that it recalculates the averaged energy and the autocorrelation function after a certain given time. Administrative authorities in the network inform the encoder about the required idle time.
  • SID SID Bitstream Structure
  • the calculation quantities used include the energy (not the logarithmized energy) and the autocorrelation function.
  • the autocorrelation function is used for a spectral envelope presentation.
  • An overall amplification factor can be compensated by a combination of all amplification and averaging methods.
  • the values for the autocorrelation function are normalized by summing or averaging (Equally Weighted). This affects all SID frames.
  • a relatively long averaging of the narrowband portion results in smoothening of the narrowband energy and the spectral envelope, so that a sudden change in energy does not significantly affect the synthesizing of comfort noise in the receiver.
  • the same averaging period is used for both energy and averaging of the spectral envelope after a first SID frame is generated after a voice burst is applied. This measure assures a more consistent estimation of the narrowband background noise during a transition from a speech period to a speech pause.
  • FIG. 1 shows a speech signal (Speech Burst) that at a certain time t a certain signal level, threshold, shown in the drawing as a dashed line, falls below.
  • the ordinate is to be understood as the level or energy value of the signal.
  • a pause detection (Voice Activity Detection, VAD) is used on the part of the transmitter, which detects when the threshold falls below a speech break.
  • VAD Voice Activity Detection
  • the VAD method provides for a known overhang period VAD-HO in which active voice frames are still transmitted and only after typically two frame lengths transitions into a mode which provides for generation of SID frames.
  • an additional overhang period DTX-HO is introduced.
  • the new overhang period DTX-HO follows the hitherto known overhang period VAD-HO, which is used as a black box.
  • VAD-HO hitherto known overhang period
  • the signal processed in the encoder is still classified as a speech signal, while at the same time a determination is already made starts from background noise parameters.
  • the data rate of the speech coding is already reduced, since no high-quality encoding is needed at the beginning of a speech break.
  • a portion of the overhead period is used for averaging the first SID frame.
  • the aforementioned embodiments preferably relate to the last frames FRAMES within an overhang period DTX-HO, VAD-HO.
  • the information of the first frames of the overhang period is preferably not used.
  • the newly introduced overhanging period DTX-HO serves a further hitherto unnoticed purpose compared to the well-known overhang period VAD-HO, which was previously motivated by the needs of voice activity detection. While both types of overhang periods DTX-HO, VAD-HO aim to identify multiple frames as active speech frames and thus avoid misclassification at the end of a speech signal, the DTX-overhang period DTX-HO has the additional purpose of providing information about the speech Raise background noise.
  • the new overhanging period DTX-HO provides additional assurance that after expiration of the overhanging period DTX-HO there will definitely be background noise and no speech signals at the input of the decoder.
  • VAD-HO could not be ruled out that it was the background signal exclusively to the adjacent signal.
  • speech fragments speech bursts
  • the new overhang period DTX-HO is used exclusively for learning the background noise.
  • an advantageous setting is e.g. to choose such that a period of two frames - cf. dashed axis FRAMES - is provided for the known overhang period VAD-HO and a period of five frames for the new overhang period DTX-HO.
  • the attenuation of the broadband component plays a role in the attenuation of the entire energy component in the broadband component. This measure is necessary due to the fact that the generator for generating (synthesizing) the comfort noise in the decoder is unable to produce the same noise characteristics as the original background noise in the encoder.
  • the output wideband speech signal ie the combination of broadband and narrowband components
  • a downstream de-emphasis postfilter This filtering mainly attenuates higher frequency components.
  • the De-Emphasis Post Filter also leads to a de-emphasis of the energy and the higher frequency components. Because the averaging deforms the spectral envelope in some way, this attenuation can help to reduce the disturbing effect of a disturbed wideband noise on a human receiver.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Telephone Function (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Description

  • Die Erfindung betrifft Verfahren und Mittel zur Enkodierung von Hintergrundrauschinformationen bei Sprachsignalkodierungsverfahren.
  • Für Telefongespräche ist seit den Anfängen der Telekommunikation eine Bandbreitenbeschränkung für eine analoge Sprachübertragung vorgesehen. Die Sprachübertragung erfolgt auf einem eingeschränkten Frequenzbereich von 300 Hz bis 3400 Hz.
  • Ein solcher eingeschränkter Frequenzbereich ist auch bei vielen Sprachsignalkodierungsverfahren für die heutige digitale Telekommunikation vorgesehen. Vor einem Kodiervorgang wird hierzu eine Bandbreitenbegrenzung des analogen Signals durchgeführt. Zur Kodierung und zur Dekodierung kommt dabei ein Codec zum Einsatz, welcher aufgrund der beschriebenen Bandbreitenbeschränkung im Frequenzbereich zwischen 300 Hz und 3400 Hz im Folgenden auch als schmalbandiger Sprachcodec (Narrow Band Speech Codec) bezeichnet wird. Unter dem Begriff Codec wird dabei sowohl die Kodiervorschrift zur digitalen Kodierung von Audiosignalen als auch die Dekodiervorschrift zur Dekodierung von Daten mit dem Ziel einer Rekonstruktion des Audiosignals verstanden.
  • Ein schmalbandiger Sprachcodec ist beispielsweise aus der ITU-T-Empfehlung G.729 bekannt. Mittels der dort beschriebenen Kodiervorschrift ist eine Übertragung eines schmalbandigen Sprachsignals mit einer Datenrate von 8 kbit/s vorgesehen.
  • Weiterhin sind sogenannte breitbandige Sprachcodecs (Wide Band Speech Codec) bekannt, welche zur Verbesserung des Höreindrucks eine Kodierung eines Audiosignals in einem erweiterten Frequenzbereich vorsehen. Ein derart erweiterter Frequenzbereich liegt z.B. zwischen einer Frequenz von 50 Hz und 7000 Hz. Ein breitbandiger Sprachcodec ist beispielsweise aus der ITU-T-Empfehlung G.729.EV bekannt.
  • Üblicherweise sind Kodierungsverfahren für breitbandige Sprachcodecs skalierbar gestaltet. Mit einer Skalierbarkeit ist hier gemeint, dass die übertragenen kodierten Daten verschiedene abgegrenzte Blöcke enthalten, welche den schmalbandigen Anteil, den breitbandigen Anteil und/oder die volle Bandbreite des kodierten Sprachsignals enthalten. Eine solche skalierbare Gestaltung gestattet einerseits eine empfängerseitige Abwärtskompatibilität und andererseits bietet sie eine einfache Möglichkeit, im Falle von eingeschränkten Datenübertragungskapazitäten im Übertragungskanal eine sender- und empfängerseitige Anpassung der Datenrate und der Größe von übertragenen Datenrahmen vorzunehmen.
  • Für eine Reduzierung der Datenübertragungsrate durch einen Codec ist üblicherweise eine Komprimierung der zu übertragenden Daten vorgesehen. Eine Komprimierung wird beispielsweise durch Kodierungsverfahren erreicht, bei denen zur Kodierung der Sprachdaten Parameter für ein Anregungssignal und Filterparameter bestimmt werden. Die Filterparameter sowie das Anregungssignal spezifizierende Parameter werden dann an den Empfänger übertragen. Dort wird mithilfe des Codecs ein synthetisches Sprachsignal synthetisiert, das dem ursprünglichen Sprachsignal hinsichtlich eines subjektiven Höreindrucks möglichst ähnlich ist. Mit Hilfe dieses auch als »Analysis-by-Synthesis« bezeichneten Verfahrens werden nicht die ermittelten und digitalisierten Abtastwerte (Samples) selbst übertragen, sondern ermittelte Parameter, die eine empfängerseitige Synthese des Sprachsignals ermöglichen.
  • Eine weitere Maßnahme zur Reduzierung der Datenübertragungsrate bietet ein Verfahren zur diskontinuierlichen Übertragung (Discontinuous Transmission), welches in der Fachwelt auch unter dem Begriff DTX geläufig ist. Dokument US 2008/0027716 A1 offenbart eine DTX Signalisierung. Das grundsätzliche Ziel von DTX ist eine Reduzierung der Datenübertragungsrate im Fall einer Sprechpause.
  • Hierzu kommt auf Seiten des Senders eine Sprechpausenerkennung (Voice Activity Detection, VAD) zum Einsatz, welche bei Unterschreiten eines bestimmten Signalpegels auf eine Sprechpause erkennt.
  • Üblicherweise wird vom Empfänger während einer Sprechpause keine völlige Stille erwartet. Im Gegenteil würde eine völlige Stille empfängerseitig zu Irritationen oder sogar zur Vermutung eines Verbindungsabbaus führen. Aus diesem Grund werden Verfahren zur Erzeugung eines sogenannten Komfortrauschen (Comfort Noise) angewandt.
  • Bei einem Komfortrauschen handelt es sich um Rauschen, welches zur Füllung von Stillephasen auf Seiten des Empfängers synthetisiert wird. Das Komfortrauschen dient einem subjektiven Eindruck einer weiter bestehenden Verbindung, ohne die für die Übertragung von Sprachsignalen vorgesehene Datenübertragungsrate zu beanspruchen. Mit anderen Worten wird zur senderseitigen Kodierung des Rauschens ein geringerer Aufwand als zur Kodierung der Sprachdaten betrieben. Für eine empfängerseitig noch als realistisch empfundene Synthetisierung des Komfortrauschens werden Daten mit einer weitaus niedrigeren Datenrate übertragen. Die hierbei übertragenen Daten werden in der Fachwelt auch als SID (Silence Insertion Description) bezeichnet.
  • Gegenwärtige skalierbare Kodierungsverfahren für breitbandige Sprachcodecs sehen derzeit keine Verfahren zur diskontinuierlichen Übertragung vor.
  • Im Stand der Technik bestehen Probleme mit einer Anwendung des diskontinuierlichen Übertragung (DTX) in Verbindung mit einem Komfortrauschgenerator auf Empfängerseite (CNG Comfort Noise Generator).
  • Derzeit bekannte Verfahren zur diskontinuierlichen Übertragung sehen eine Übermittlung SID-Rahmen mit aktualisierten Parametern zur Charakterisierung des Hintergrundrauschens nur dann vor, wenn seitens des Enkoders signifikante Änderungen in der Energie des Hintergrundrauschens während einer inaktiven Sprachperiode (Sprechpause) detektiert werden. Dies betrifft sowohl schmalbandige (50Hz bis 4kHz) als auch breitbandige Sprachcodecs, welche Verfahren zur diskontinuierlichen Übertragung unterstützen. Üblicherweise wird bei der Entscheidung, einen SID-Rahmen mit aktualisierten Parametern zu übermitteln, ein im Dekoder spezifizierter Energiegrenzwert (Energy Threshold) herangezogen. Dies führt dazu, dass bei einer Nichtüberschreitung des definierten Energiegrenzwertes keine SID-Rahmen gesendet werden. Seitens des Übertragungsnetzwerks zwischen Empfänger und Sender wird jedoch ein derartiges Aussetzen des Sendens von SID-Rahmen als Ruhezustand bzw. »Idle Channel« angesehen. Zur Gewährleistung einer Aufrechterhaltung der Verbindung (»Connection Alive«) ist dann eventuell ein zusätzlicher Datenaustausch erforderlich, um anzuzeigen, dass die Verbindung aufrechterhalten werden soll.
  • Ein bekannter zusätzlich vorgesehener Datenaustausch erfolgt derzeit in der Weise, dass administrative Stellen im Netzwerkmanagement des Übertragungsnetzwerks den sendenden Knoten, d.h. den sendenden Enkoder auffordern, den zuletzt übermittelten SID-Rahmen erneut zu übermitteln, falls die verstrichene Leerlaufzeit (»Idle Period«) zum letzten gesendeten SID-Rahmen als zu lang für die entsprechende Verbindung erachtet wird. Für eine solche erneute Übermittlung werden Parameter des erneut gesendeten SID-Rahmens nicht aktualisiert. Der Enkoder führt also keine zusätzlichen Aktionen aus.
  • Aufgabe der Erfindung ist es, eine verbesserte Implementierung der diskontinuierlichen Übertragung in skalierbaren Sprachcodecs anzugeben.
  • Die Aufgabe wird durch den Gegenstand der unabhängigen Ansprüche gelöst.
  • Ein Grundgedanke der Erfindung besteht darin, den Enkoder eines Sprachcodecs so auszugestalten, dass dieser nach einer zuvor ermittelten Leerlaufzeit (»Idle Period«) eine erneute Ermittlung bzw. Berechnung von Parameter über das Hintergrundrauschen, insbesondere der gemittelten Energie und der Autokorrelationsfunktion, vornimmt. Die besagte Ermittlung der Hintergrundrauschparameter entspricht mit anderen Worten einer Enkodierung des Rauschsignals. Administrative Stellen im Netzwerk informieren den Enkoder dabei über die im Übertragungsnetzwerk eingestellte Leerlaufzeit. Der Enkoder bestimmt also die Leerlaufzeit z.B. durch Anfrage administrativer Stellen im Übertragungsnetzwerk. Eine solche Anfrage ist nur einmal notwendig, wenn die ermittelte Leerlaufzeit seitens des Enkoders gespeichert wird.
  • Eine Einstellung eines zeitlichen Abstands für zu sendende SID-Rahmen gestattet es administrativen Stellen im Übertragungsnetzwerk, den Enkoder zu einem Senden eines aktualisierten Rahmens zu zwingen. Dies garantiert sowohl eine Aktualisierung zugunsten einer besseren Rekonstruktion des Hintergrundrauschens im CNG als auch ein zuverlässigeres Halten der Verbindung.
  • Ein Vorteil des erfindungsgemäßen Verfahrens besteht darin, dass zur Entscheidung, ob aktualisierte Hintergrundrauschparameter in Form eines aktualisierten SID-Rahmen gesendet werden sollen, kein Vergleich der Energie des Hintergrundrauschsignals mit einem Energiegrenzwert erforderlich ist. Das Verfahren spart somit Rechenressourcen gegenüber den bekannten Verfahren.
  • Ein weiterer Vorteil besteht darin, dass die eingestellte Zeitdauer zwischen zwei SID-Rahmen mit den Erfordernissen des jeweiligen Übertragungsnetzwerks übereinstimmt.
  • Vorteilhafte Weiterbildungen und Ausgestaltungen der Erfindung sind Gegenstand der Unteransprüche.
  • Eine vorteilhafte Ausgestaltung der Erfindung sieht eine SID-Struktur (SID Bitstream Structure) bei der der schmalbandige Anteil der Hintergrundrauschinformation vom breitbandigen Anteil der Hintergrundrauschinformation getrennt ist. Eine getrennte Behandlung von schmalbandiger und breitbandiger Hintergrundrauschinformation in einem SID-Rahmen ermöglicht eine getrennte Enkodierung des schmalbandigen und des breitbandigen Anteils des Hintergrundrauschens und macht die Bearbeitung transparent. Diese Ausgestaltung hat weiterhin den Vorteil, dass empfängerseitig bestimmt werden kann, ob ein Komfortrauschen auf Basis des breitbandigen Anteils der übertragenen SID-Rahmen oder auf Basis des schmalbandigen Anteils erfolgen soll. Dies ist von besonderem Vorteil für die empfängerseitige akustische Rezeption in einer Situation, in der die Übertragungsrate für Sprachinformationsrahmen derart verringert wurde, dass nur noch schmalbandige Sprachinformationen übertragen werden. Wird nämlich, wie im derzeitigen Stand der Technik, schmalbandige Sprachinformationen in Verbindung mit breitbandigem Rauschen synthetisiert, ist dies für den Empfänger sehr irritierend. Die besagte Verringerung der Übertragungsrate für Sprachinformationsrahmen kann zum Beispiel durch eine hohe Auslastung (Congestion) des Netzwerks zwischen Sender und Empfänger verursacht sein. Die wesentlich kleineren SID-Rahmen sind von einem solchen Netzwerkengpass nicht betroffen. Für sie besteht also weder ein Zwang zur Reduzierung ihrer Datenübertragungsrate noch ihres Inhalts.
  • Eine vorteilhafte Ausgestaltung der Erfindung sieht vor, dass zur Bestimmung der Hintergrundrauschparameter des schmalbandigen ersten Anteils des Hintergrundrauschens Energie und Autokorrelationsfunktion des Hintergrundrauschens ermittelt werden. Im schmalbandigen Anteil ist eine Mittlung über einen relativ langen Zeitraum einer Sprechpause notwendig, in der Praxis über einen Zeitraum von z.B. 100 ms. Die verwendeten Berechnungsgrößen gemäß dieser Ausführungsform umfassen dabei die Energie (nicht die logarithmierte Energie) und die Autokorrelationsfunktion.
  • Zu Beginn eines Zeitabschnitts, welcher als inaktiv bzw. als Sprechpause klassifiziert ist, wird gemäß einer weiteren vorteilhaften Ausgestaltung der Erfindung eine zusätzliche Überhangperiode (Hangover Period) eingeführt. Die neu eingeführte Überhangperiode, im Folgenden: DTX-Überhangperiode dient im Vergleich zur bisher bekannten VAD- Überhangperiode (Voice Activity Detection) einem weiteren bislang unbekannten Zweck. Während beide Arten von Überhangperiode das Ziel verfolgen, mehrere Rahmen als aktive Sprachrahmen zu kennzeichnen und damit eine falsche Klassifizierung am Ende eines Sprachsignals zu vermeiden, hat die DTX-Überhangperiode den zusätzlichen Zweck, Informationen über das Hintergrundrauschen zu erheben.
  • Eine vorteilhafte Ausgestaltung der Erfindung sieht vor, dass der breitbandige zweite Anteil gedämpft wird. Die Dämpfung des breitbandigen Anteils spielt eine Rolle bei der Dämpfung des gesamten Energieanteils im breitbandigen Anteil. Diese Maßnahme ist aufgrund der Tatsache notwendig, dass der Generator zur Erzeugung (synthetisieren) des Komfortrauschens im Dekoder nicht in der Lage ist, dieselben Rauscheigenschaften zu produzieren als das Originalhintergrundrauschen im Enkoder.
  • Eine vorteilhafte Ausgestaltung der Erfindung sieht vor, dass auf das gesamte Hintergrundrauschsignal, also der Kombination aus breitbandigen und schmalbandigen Anteil, eine nachgeschaltete Betonungsminderungsfilterung (»De-emphasis Post Filter«) angewandt wird. Das »De-Emphasis Post Filter« führt zu einer Betonungsminderung (De-Emphasis) der Energie und der höheren Frequenzkomponenten. Da die Mittelung in bestimmter Weise die spektrale Einhüllende deformiert, kann diese Dämpfung in vorteilhafter Weise dazu beitragen, den störenden Effekt eines gestörten breitbandigen Rauschens auf einen menschlichen Empfänger zu reduzieren.
  • Ein Ausführungsbeispiel mit weiteren Vorteilen und Ausgestaltungen der Erfindung wird im Folgenden anhand der Zeichnung näher erläutert.
  • Dabei zeigt die einzige FIG eine zeitliche Darstellung eines Übergangs von einem als Sprache klassifizierten zu einem als Hintergrundrauschen klassifizierten Eingangssignal an einem Dekoder.
  • Im Folgenden wird der der Erfindung zugrundeliegende technische Hintergrund, zunächst ohne Bezugnahme auf die Zeichnung, näher beschrieben.
  • Im Stand der Technik bestehen Probleme mit einer Anwendung des diskontinuierlichen Übertragung (DTX) in Verbindung mit einem Komfortrauschgenerator auf Empfängerseite (CNG Comfort Noise Generator). Während der DTX/CNG-Operation müssen folgende Überlegungen berücksichtigt werden:
    1. 1. Seitens des CNG ist eine geeignete Erzeugung des Hintergrundrauschens bzw. Komfortrauschens erforderlich, welche von einem Zuhörer auf Empfängerseite als realistisch aufgefasst werden soll. Im Falle von breitbandigen Sprachcodecs, also beispielsweise Sprachcodecs mit einer Bandbreite zwischen Frequenzen von 50 Hz und 7 kHz, wird eine Generierung eines breitbandigen Rauschens als eine Verschlechterung angesehen. Darüber hinaus ist der Charakter bzw. »die Farbe« des Hintergrundrauschens auf Dekoder- und Enkoderseite nicht immer gleich, sodass gegenwärtige Lösungen, welche eine Mittelwertbildung der Energie und der spektralen Einhüllenden vorsehen, eine Verfälschung der ursprünglichen Hintergrundrauschinformation bewirken.
    2. 2. Das DTX-Verfahren übermittelt nur dann aktualisierte SID-Rahmen wenn seitens des Enkoders signifikante Änderungen in der Energie des Hintergrundrauschens während einer inaktiven Sprachperiode (Sprechpause) detektiert werden. Dies betrifft sowohl schmalbandige (50Hz bis 4kHz) als auch breitbandige Sprachcodecs, welche das DTX/CNG-Verfahren unterstützen. Üblicherweise spielt dabei ein Energiegrenzwert (Energy Threshold) eine zentrale Rolle. Dies führt dazu, dass bei einer Nichtüberschreitung eines definierten Energiegrenzwertes keine SID-Rahmen gesendet werden. Seitens des Übertragungsnetzwerks zwischen Empfänger und Sender wird jedoch ein derartiges Aussetzen des Sendens von SID-Rahmen als Ruhezustand bzw. »Idle Channel« angesehen. Zur Gewährleistung einer Aufrechterhaltung der Verbindung (»Connection Alive«) ist dann eventuell ein zusätzlicher Datenaustausch erforderlich, um anzuzeigen, dass die Verbindung aufrechterhalten werden soll.
  • Derzeit wird mit dem oben genannten Problemen wie folgt umgegangen:
    • Zu 1.: Die den breitbandigen Anteil betreffende Information wird in dem SID-Rahmen enkodiert. Dabei werden die gemittelte logarithmische Energie und die gemittelte Immitance Spectral Frequency (ISF) zur Beschreibung des breitbandigen Hintergrundrauschens herangezogen, z.B. in den Sprachcodecs G.722.2 und AMR-WB. Es ist dabei keine getrennte Behandlung eines unteren Teils und eines oberen Teils des breitbandigen Hintergrundrauschens vorgesehen. Der schmalbandige Sprachcode G.729 verwendet eine gemittelte logarithmische Energie und eine gemittelte Autokorrelationsfunktion. Die Mittelungsperiode für die Energie und die Mittelungsperiode für die Autokorrelationsfunktion stimmen dabei nicht überein.
    • Zu 2.: Administrative Stellen im Netzwerkmanagement fordern den sendenden Knoten, d.h. den sendenden Enkoder auf, den zuletzt übermittelten SID-Rahmen erneut zu übermitteln, falls die »Idle Period« als zu lang für die zugehörige Verbindung erachtet wird. Der erneut gesendete SID-Rahmen und die darin enthaltene Information wird daher nicht aktualisiert. Der Enkoder führt also keine zusätzlichen Aktionen aus.
  • Das erfinderische Verfahren sieht vor, den Enkoder so auszugestalten, dass dieser nach einer bestimmten gegebenen Zeit eine erneute Berechnung der gemittelten Energie und der Autokorrelationsfunktion vornimmt. Administrative Stellen im Netzwerk informieren den Enkoder dabei über die benötigte Idle Time.
  • Im Folgenden werden weitere Ausführungsformen zur Generierung des SID-Rahmens beschrieben.
  • Eine SID-Struktur (SID Bitstream Structure) bei der der schmalbandige Anteil der Hintergrundrauschinformation vom breitbandigen Anteil der Hintergrundrauschinformation getrennt ist, wird erzeugt. Eine getrennte Behandlung von schmalbandiger und breitbandiger Hintergrundrauschinformation in einem SID-Rahmen ermöglicht eine getrennte Enkodierung des schmalbandigen und des breitbandigen Anteils des Hintergrundrauschens und macht die Bearbeitung transparent.
  • Im schmalbandigen Anteil ist eine Mittlung über einen relativ langen Zeitraum einer Sprechpause notwendig, in der Praxis über einen Zeitraum von z.B. 100 ms. Die verwendeten Berechnungsgrößen umfassen dabei die Energie (nicht die logarithmierte Energie) und die Autokorrelationsfunktion. Die Autokorrelationsfunktion wird benutzt für eine spektrale Hüllkurvenpräsentation. Ein Gesamtverstärkungsfaktor kann dabei durch eine Kombination aller Verstärkungs- und Mittlungsmethoden kompensiert werden. Die Werte für die Autokorrelationsfunktion werden durch Summierung oder Mittelwertbildung jeweils normiert (Equally Weighted). Dies betrifft alle SID-Rahmen. Eine relativ lange Mittelung (Averaging) des schmalbandigen Anteils führt zu einer Glättung der schmalbandigen Energie und der spektralen Einhüllenden, sodass eine plötzliche Energieänderung keinen merklichen Einfluss auf die Synthetisierung des Komfortrauschens im Empfänger zeitigt. Dieselbe Mittelungsperiode wird sowohl für die Energie als auch zur Mittelung der spektralen Einhüllenden verwendet, nachdem ein erster SID-Rahmen nach einem Einsetzen eines Sprachsignals (Speak Burst) erzeugt wird. Diese Maßnahme sichert eine konsistentere Abschätzung des schmalbandigen Hintergrundrauschens während einem Übergang von einer Sprachperiode in eine Sprechpause.
  • Im Folgenden wird auf die FIG Bezug genommen. Die FIG zeigt ein Sprachsignal (Speech Burst), dass zu einem bestimmten Zeitpunkt t einen bestimmten Signalpegel, Threshold, in der Zeichnung als strichlierte Linie dargestellt, unterschreitet. Die Ordinate ist als Pegel oder als Energiewert des Signals zu verstehen. Hierzu kommt auf Seiten des Senders eine Sprechpausenerkennung (Voice Activity Detection, VAD) zum Einsatz, welche bei Unterschreiten des Thresholds auf eine Sprechpause erkennt. Das VAD-Verfahren sieht eine bekannte Überhangperiode VAD-HO vor, in welcher weiterhin aktive Sprachrahmen gesendet werden und erst nach üblicherweise zwei Rahmenlängen in einen Modus überwechselt, der eine Generierung von SID-Rahmen vorsieht.
  • Gemäß der hier beschriebenen Ausführungsform der Erfindung wird eine zusätzliche Überhangperiode DTX-HO eingeführt. Die neue Überhangperiode DTX-HO schließt sich an die bislang bekannte Überhangperiode VAD-HO an, welche als »Black Box« verwendet wird. Während dieser Überhangperiode DTX-HO wird das im Enkoder bearbeitete Signal immer noch als Sprachsignal klassifiziert, während parallel dazu bereits eine Bestimmung von Hintergrundrauschparametern beginnt. Die Datenrate der Sprachkodierung ist bereits reduziert, da zu Beginn einer Sprechpause keine hochqualitative Enkodierung benötigt wird. Weiterhin wird für den schmalbandigen Anteil ein Teil der Überhangperiode benutzt für die Mittelwertbildung des ersten SID-Rahmens. Die vorgenannten Ausführungen beziehen sich vorzugsweise auf die letzten Rahmen FRAMES innerhalb einer Überhangperiode DTX-HO, VAD-HO. Die Information der ersten Rahmen der Überhangperiode wird dagegen vorzugsweise nicht benutzt.
  • Die neu eingeführte Überhangperiode DTX-HO dient im Vergleich zur bisher von Bedürfnissen der Voice Activity Detection motivierten bekannten Überhangperiode VAD-HO einem weiteren bislang nicht beachteten Zweck. Während beide Arten von Überhangperioden DTX-HO, VAD-HO das Ziel verfolgen, mehrere Rahmen als aktive Sprachrahmen zu kennzeichnen und damit eine falsche Klassifizierung am Ende eines Sprachsignals zu vermeiden, hat die DTX-Überhangperiode DTX-HO den zusätzlichen Zweck, Informationen über das Hintergrundrauschen zu erheben.
  • Bezüglich des verfolgten Ziels, eine falsche Klassifizierung am Ende eines Sprachsignals zu vermeiden, stellt die neue Überhangperiode DTX-HO eine zusätzliche Versicherung dar, dass nach Ablauf der Überhangperiode DTX-HO definitiv ein Hintergrundrauschen und keine Sprachsignale am Eingang des Dekoders anliegen. Bei einer bisherigen Verwendung der bekannten Überhangperiode VAD-HO konnte nicht ausgeschlossen werden, dass es sich bei dem anliegenden Signal exklusiv nur um Hintergrundrauschen handelte. In der Praxis konnten während dieser bekannten Überhangperiode VAD-HO noch Sprachanteile (Speech Bursts) auftreten. Im Übrigen dient die neue Überhangperiode DTX-HO ausschließlich zur Anlernung des Hintergrundrauschens.
  • Bezüglich der Wahl der Zeitdauer dieser Überhangperioden DTX-HO, VAD-HO und damit der Wahl der Anzahl an Rahmen FRAMES ist eine vorteilhafte Einstellung z.B. so zu wählen, dass eine Zeitdauer von zwei Rahmen - vgl. gestrichelte Achse FRAMES - für die bekannte Überhangperiode VAD-HO und eine Zeitdauer von fünf Rahmen für die neue Überhangperiode DTX-HO vorgesehen ist.
  • Im breitbandigen Anteil wird eine Energiedämpfung ausgeführt. Die Dämpfung des breitbandigen Anteils spielt eine Rolle bei der Dämpfung des gesamten Energieanteils im breitbandigen Anteil. Diese Maßnahme ist aufgrund der Tatsache notwendig, dass der Generator zur Erzeugung (synthetisieren) des Komfortrauschens im Dekoder nicht in der Lage ist, dieselben Rauscheigenschaften zu produzieren als das Originalhintergrundrauschen im Enkoder.
  • Auf das ausgegebene Breitbandsprachsignal, also der Kombination aus breitbandigen und schmalbandigen Anteil, wird eine nachgeschaltete Betonungsminderungsfilterung (»De-emphasis Post Filter«) angewandt. Diese Filterung dämpft hauptsächlich höhere Frequenzkomponenten. Das »De-Emphasis Post Filter« führt weiterhin zu einer Betonungsminderung (De-Emphasis) der Energie und der höheren Frequenzkomponenten. Da die Mittelung in bestimmter Weise die spektrale Einhüllende deformiert, kann diese Dämpfung dazu beitragen, den störenden Effekt eines gestörten breitbandigen Rauschens auf einen menschlichen Empfänger zu reduzieren.

Claims (15)

  1. Verfahren zur Generierung von SID-Rahmen für eine diskontinuierliche Übertragung von Hintergrundrauschparametern über ein Übertragungsnetzwerk, mit dem in der Telekommunikation Audiosignale von einem Sender an einen Empfänger übertragen werden, wobei bei dem Verfahren eine periodenweise Ermittlung von Hintergrundrauschparametern und eine auf Basis der ermittelten Hintergrundrauschparameter erfolgende Generierung und Übersendung von SID-Rahmen vorgesehen ist,
    wobei die Periode einer ermittelten, im Übertragungsnetzwerk eingestellten Leerlaufzeit (Idle Period) des Übertragungsnetzwerks entspricht.
  2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass als Audiosignal ein Sprachsignal verwendet wird.
  3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass zur Entscheidung, ob die Hintergrundrauschparameter in Form eines der SID-Rahmen übersandt werden sollen, anstelle eines Vergleichs der Energie eines Hintergrundrauschsignals mit einem Energiegrenzwert eine Einstellung eines zeitlichen Abstandes zwischen zwei zu übersendenden SID-Rahmen erfolgt.
  4. Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, dass Hintergrundrauschparameter eines schmalbandigen ersten Anteils und eines breitbandigen zweiten Anteils ermittelt werden und dass die Generierung des SID-Rahmens mit getrennten Bereichen für den ersten und den zweiten Anteil erfolgt.
  5. Verfahren nach Anspruch 4, dadurch gekennzeichnet, dass seitens des Empfängers bestimmt wird, ob ein Komfortrauschen auf Basis des breitbandigen zweiten Anteils der übertragenen SID-Rahmen oder auf Basis des schmalbandigen ersten Anteils erfolgen soll.
  6. Verfahren nach Anspruch 4 oder 5, dadurch gekennzeichnet, dass zur Bestimmung der Hintergrundrauschparameter des schmalbandigen ersten Anteils des Hintergrundrauschens Energie und Autokorrelationsfunktion des Hintergrundrauschens ermittelt werden.
  7. Verfahren nach Anspruch 6, dadurch gekennzeichnet, dass die Hintergrundrauschparameter des schmalbandigen ersten Anteils über einen Zeitraum um 100 Millisekunden gemittelt werden.
  8. Verfahren nach Anspruch 6 oder 7, dadurch gekennzeichnet, dass anstelle einer logarithmierten Energie des Hintergrundrauschens die Energie des Hintergrundrauschens ermittelt wird.
  9. Verfahren nach einem der vorgenannten Ansprüche, dadurch gekennzeichnet, dass beim Übergang von einem als Sprache kategorisierten Signal zu einem als Hintergrundrauschen kategorisierten Signal eine zusätzliche Überhangperiode (Hangover Period, DTX-HO) vorgesehen ist, während der eine Bestimmung von Hintergrundrauschparametern erfolgt.
  10. Verfahren nach Anspruch 9, dadurch gekennzeichnet, dass sich die zusätzliche Überhangperiode (DTX-HO) an eine bekannte Überhangperiode (VAD-HO) anschließt, in welcher weiterhin aktive Sprachrahmen gesendet werden.
  11. Verfahren nach Anspruch 10, dadurch gekennzeichnet, dass die zusätzliche Überhangperiode (DTX-HO) und die bekannte Überhangperiode (VAD-HO) jeweils Rahmen (FRAMES) aufweisen und die Anzahl der Rahmen (FRAMES) derart gewählt wird, dass eine Zeitdauer von zwei Rahmen für die bekannte Überhangperiode (VAD-HO) und eine Zeitdauer von fünf Rahmen für die zusätzliche Überhangperiode (DTX-HO) vorgesehen wird.
  12. Verfahren nach einem der Ansprüche 4 bis 9, dadurch gekennzeichnet, dass der breitbandige zweite Anteil gedämpft wird.
  13. Verfahren nach einem der vorgenannten Ansprüche, dadurch gekennzeichnet, dass auf das gesamte Hintergrundrauschsignal eine nachgeschaltete Betonungsminderungsfilterung (De-Emphasis Post Filter) angewandt wird.
  14. Codec mit Mitteln zur Durchführung des Verfahrens nach einem der Ansprüche 1 bis 13.
  15. Codec nach Anspruch 14, gekennzeichnet durch eine Implementierung im an sich bekannten ITU-T Standard G.729.1 (05/06) .
EP09711709.7A 2008-02-19 2009-02-02 Verfahren und mittel zur enkodierung von hintergrundrauschinformationen Active EP2245620B1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102008009718A DE102008009718A1 (de) 2008-02-19 2008-02-19 Verfahren und Mittel zur Enkodierung von Hintergrundrauschinformationen
PCT/EP2009/051123 WO2009103610A1 (de) 2008-02-19 2009-02-02 Verfahren und mittel zur enkodierung von hintergrundrauschinformationen

Publications (2)

Publication Number Publication Date
EP2245620A1 EP2245620A1 (de) 2010-11-03
EP2245620B1 true EP2245620B1 (de) 2017-08-30

Family

ID=40568601

Family Applications (1)

Application Number Title Priority Date Filing Date
EP09711709.7A Active EP2245620B1 (de) 2008-02-19 2009-02-02 Verfahren und mittel zur enkodierung von hintergrundrauschinformationen

Country Status (8)

Country Link
US (1) US8949121B2 (de)
EP (1) EP2245620B1 (de)
JP (1) JP5415460B2 (de)
KR (1) KR101216496B1 (de)
CN (1) CN101952887B (de)
DE (1) DE102008009718A1 (de)
RU (1) RU2440674C1 (de)
WO (1) WO2009103610A1 (de)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9324331B2 (en) * 2011-01-14 2016-04-26 Panasonic Intellectual Property Corporation Of America Coding device, communication processing device, and coding method
CN103187065B (zh) * 2011-12-30 2015-12-16 华为技术有限公司 音频数据的处理方法、装置和系统
US8868415B1 (en) * 2012-05-22 2014-10-21 Sprint Spectrum L.P. Discontinuous transmission control based on vocoder and voice activity
EP2959480B1 (de) * 2013-02-22 2016-06-15 Telefonaktiebolaget LM Ericsson (publ) Verfahren und vorrichtungen für dtx-hangover in einer audiocodierung
US9572103B2 (en) * 2014-09-24 2017-02-14 Nuance Communications, Inc. System and method for addressing discontinuous transmission in a network device
WO2020023856A1 (en) 2018-07-27 2020-01-30 Dolby Laboratories Licensing Corporation Forced gap insertion for pervasive listening
MX2022015324A (es) 2020-06-11 2023-02-27 Dolby Laboratories Licensing Corp Metodos y dispositivos para codificar y/o decodificar ruido de fondo espacial dentro de una se?al de entrada multicanal.

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5881373A (en) * 1996-08-28 1999-03-09 Telefonaktiebolaget Lm Ericsson Muting a microphone in radiocommunication systems
US5893056A (en) * 1997-04-17 1999-04-06 Northern Telecom Limited Methods and apparatus for generating noise signals from speech signals
CN1313017A (zh) * 1998-06-08 2001-09-12 艾利森电话股份有限公司 用于消除切换的可听效应的系统
RU2237296C2 (ru) 1998-11-23 2004-09-27 Телефонактиеболагет Лм Эрикссон (Пабл) Кодирование речи с функцией изменения комфортного шума для повышения точности воспроизведения
MY138849A (en) * 1998-11-24 2009-07-31 Ericsson Telefon Ab L M Efficient in-band signaling for discontinuous transmission and configuration changes in adaptive multi-rate communications systems
DE10084675T1 (de) 1999-06-07 2002-06-06 Ericsson Inc Verfahren und Vorrichtung zur Erzeugung von künstlichem Geräusch unter Verwendung von parametrischen Geräuschmodell-Masszahlen
US6807525B1 (en) * 2000-10-31 2004-10-19 Telogy Networks, Inc. SID frame detection with human auditory perception compensation
CN1617605A (zh) 2003-11-12 2005-05-18 皇家飞利浦电子股份有限公司 一种在语音信道传输非语音数据的方法及装置
CN101023471B (zh) * 2004-09-17 2011-05-25 松下电器产业株式会社 可伸缩性编码装置、可伸缩性解码装置、可伸缩性编码方法、可伸缩性解码方法、通信终端装置以及基站装置
CA2609945C (en) 2005-06-18 2012-12-04 Nokia Corporation System and method for adaptive transmission of comfort noise parameters during discontinuous speech transmission
US20070136055A1 (en) * 2005-12-13 2007-06-14 Hetherington Phillip A System for data communication over voice band robust to noise
US8725499B2 (en) * 2006-07-31 2014-05-13 Qualcomm Incorporated Systems, methods, and apparatus for signal change detection
US8260609B2 (en) * 2006-07-31 2012-09-04 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of inactive frames
US8032359B2 (en) * 2007-02-14 2011-10-04 Mindspeed Technologies, Inc. Embedded silence and background noise compression

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
None *

Also Published As

Publication number Publication date
CN101952887B (zh) 2013-05-29
WO2009103610A1 (de) 2009-08-27
US20110004471A1 (en) 2011-01-06
DE102008009718A1 (de) 2009-08-20
DE102008009718A8 (de) 2009-12-17
CN101952887A (zh) 2011-01-19
KR20100123734A (ko) 2010-11-24
RU2440674C1 (ru) 2012-01-20
EP2245620A1 (de) 2010-11-03
JP2011515705A (ja) 2011-05-19
JP5415460B2 (ja) 2014-02-12
US8949121B2 (en) 2015-02-03
KR101216496B1 (ko) 2012-12-31

Similar Documents

Publication Publication Date Title
EP2245621B1 (de) Verfahren und mittel zur enkodierung von hintergrundrauschinformationen
DE69621613T2 (de) Anordnung und verfahren zur sprachübertragung und eine derartige anordnung enthaltende fernsprechanlage
EP2245620B1 (de) Verfahren und mittel zur enkodierung von hintergrundrauschinformationen
DE60117471T2 (de) Breitband-signalübertragungssystem
AT405346B (de) Verfahren zum herleiten der nachwirkperiode in einem sprachdecodierer bei diskontinuierlicher übertragung, sowie sprachcodierer und sender-empfänger
DE60129327T2 (de) Anordnung und verfahren in bezug auf die vermittlung von sprache
DE69518174T2 (de) Rauschkorrektur durch Feststellung der Anwesenheit von Sprachsignalen
DE69603743T2 (de) Verfahren und gerät zum kodieren, behandeln und dekodieren von audiosignalen
DE60214599T2 (de) Skalierbare audiokodierung
EP3217583B1 (de) Decodierer und verfahren zum decodieren einer folge von datenpaketen
DE69925168T2 (de) Erkennung der aktivität komplexer signale für verbesserte sprach-/rauschklassifizierung von einem audiosignal
EP2047669B1 (de) Verfahren zum durchführen einer audiokonferenz, audiokonferenzeinrichtung und umschalteverfahren zwischen kodierern
EP0978172B1 (de) Verfahren zum verschleiern von fehlern in einem audiodatenstrom
DE60122751T2 (de) Verfahren und vorrichtung für die objektive bewertung der sprachqualität ohne referenzsignal
DE60224005T2 (de) Verfahren und vorrichtung zur verarbeitung von mehreren audiobitströmen
EP1023777B1 (de) Verfahren und vorrichtung zur erzeugung eines bitratenskalierbaren audio-datenstroms
DE112021005067T5 (de) Codec mit hierarchischer räumlicher auflösung
EP1953739B1 (de) Verfahren und Vorrichtung zur Geräuschsunterdrückung bei einem decodierten Signal
EP2245622B1 (de) Verfahren und mittel zur dekodierung von hintergrundrauschinformationen
EP0658874A1 (de) Verfahren und Schaltungsanordnung zur Vergrösserung der Bandbreite von schmalbandigen Sprachsignalen
DE60210597T2 (de) Vorrichtung zur adpcdm sprachkodierung mit spezifischer anpassung der schrittwerte
DE10252070B4 (de) Kommunikationsendgerät mit parametrierter Bandbreitenerweiterung und Verfahren zur Bandbreitenerweiterung dafür
WO2002084929A1 (de) Verfahren und vorrichtung zur übertragung von digitalen signalen
EP1677286A1 (de) Verfahren zur Anpassung von Comfort Noise Generation Parametern
EP1390947B1 (de) Verfahren zum signalempfang in einem digitalen kommunikationssystem

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 20100812

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO SE SI SK TR

AX Request for extension of the european patent

Extension state: AL BA RS

RIN1 Information on inventor provided before grant (corrected)

Inventor name: SETIAWAN, PANJI

Inventor name: TADDEI, HERVE

Inventor name: SCHANDL, STEFAN

DAX Request for extension of the european patent (deleted)
RAP1 Party data changed (applicant data changed or rights of an application transferred)

Owner name: UNIFY GMBH & CO. KG

17Q First examination report despatched

Effective date: 20140129

RAP1 Party data changed (applicant data changed or rights of an application transferred)

Owner name: UNIFY GMBH & CO. KG

REG Reference to a national code

Ref country code: DE

Ref legal event code: R079

Ref document number: 502009014306

Country of ref document: DE

Free format text: PREVIOUS MAIN CLASS: G10L0019000000

Ipc: G10L0019012000

GRAP Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOSNIGR1

INTG Intention to grant announced

Effective date: 20170331

RIC1 Information provided on ipc code assigned before grant

Ipc: G10L 19/18 20130101ALN20170320BHEP

Ipc: G10L 19/012 20130101AFI20170320BHEP

GRAS Grant fee paid

Free format text: ORIGINAL CODE: EPIDOSNIGR3

GRAA (expected) grant

Free format text: ORIGINAL CODE: 0009210

AK Designated contracting states

Kind code of ref document: B1

Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO SE SI SK TR

REG Reference to a national code

Ref country code: GB

Ref legal event code: FG4D

Free format text: NOT ENGLISH

REG Reference to a national code

Ref country code: CH

Ref legal event code: EP

REG Reference to a national code

Ref country code: AT

Ref legal event code: REF

Ref document number: 924306

Country of ref document: AT

Kind code of ref document: T

Effective date: 20170915

REG Reference to a national code

Ref country code: IE

Ref legal event code: FG4D

Free format text: LANGUAGE OF EP DOCUMENT: GERMAN

REG Reference to a national code

Ref country code: DE

Ref legal event code: R096

Ref document number: 502009014306

Country of ref document: DE

REG Reference to a national code

Ref country code: NL

Ref legal event code: MP

Effective date: 20170830

REG Reference to a national code

Ref country code: LT

Ref legal event code: MG4D

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: FI

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20170830

Ref country code: HR

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20170830

Ref country code: NO

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20171130

Ref country code: LT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20170830

Ref country code: SE

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20170830

REG Reference to a national code

Ref country code: FR

Ref legal event code: PLFP

Year of fee payment: 10

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: LV

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20170830

Ref country code: BG

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20171130

Ref country code: ES

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20170830

Ref country code: GR

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20171201

Ref country code: IS

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20171230

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: NL

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20170830

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: CZ

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20170830

Ref country code: DK

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20170830

Ref country code: RO

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20170830

Ref country code: PL

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20170830

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: SK

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20170830

Ref country code: EE

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20170830

Ref country code: IT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20170830

REG Reference to a national code

Ref country code: DE

Ref legal event code: R097

Ref document number: 502009014306

Country of ref document: DE

PLBE No opposition filed within time limit

Free format text: ORIGINAL CODE: 0009261

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT

26N No opposition filed

Effective date: 20180531

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: SI

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20170830

REG Reference to a national code

Ref country code: CH

Ref legal event code: PL

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: MC

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20170830

Ref country code: MT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20170830

REG Reference to a national code

Ref country code: BE

Ref legal event code: MM

Effective date: 20180228

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: LU

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20180202

Ref country code: CH

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20180228

Ref country code: LI

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20180228

REG Reference to a national code

Ref country code: IE

Ref legal event code: MM4A

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: IE

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20180202

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: BE

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20180228

REG Reference to a national code

Ref country code: AT

Ref legal event code: MM01

Ref document number: 924306

Country of ref document: AT

Kind code of ref document: T

Effective date: 20180202

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: AT

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20180202

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: TR

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20170830

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: HU

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT; INVALID AB INITIO

Effective date: 20090202

Ref country code: PT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20170830

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: MK

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20170830

Ref country code: CY

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20170830

REG Reference to a national code

Ref country code: DE

Ref legal event code: R082

Ref document number: 502009014306

Country of ref document: DE

Representative=s name: SCHAAFHAUSEN PATENTANWAELTE PARTNERSCHAFTSGESE, DE

REG Reference to a national code

Ref country code: DE

Ref legal event code: R081

Ref document number: 502009014306

Country of ref document: DE

Owner name: UNIFY BETEILIGUNGSVERWALTUNG GMBH & CO. KG, DE

Free format text: FORMER OWNER: UNIFY GMBH & CO. KG, 80807 MUENCHEN, DE

REG Reference to a national code

Ref country code: GB

Ref legal event code: 732E

Free format text: REGISTERED BETWEEN 20250807 AND 20250813

REG Reference to a national code

Ref country code: GB

Ref legal event code: 732E

Free format text: REGISTERED BETWEEN 20251106 AND 20251112

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: GB

Payment date: 20251211

Year of fee payment: 18

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: FR

Payment date: 20251128

Year of fee payment: 18

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: DE

Payment date: 20251210

Year of fee payment: 18