EP0657874B1 - Stimmkodierer und Verfahren zum Suchen von Kodebüchern - Google Patents

Stimmkodierer und Verfahren zum Suchen von Kodebüchern Download PDF

Info

Publication number
EP0657874B1
EP0657874B1 EP94119533A EP94119533A EP0657874B1 EP 0657874 B1 EP0657874 B1 EP 0657874B1 EP 94119533 A EP94119533 A EP 94119533A EP 94119533 A EP94119533 A EP 94119533A EP 0657874 B1 EP0657874 B1 EP 0657874B1
Authority
EP
European Patent Office
Prior art keywords
voice
signals
codebook
calculating
subframes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
EP94119533A
Other languages
English (en)
French (fr)
Other versions
EP0657874A1 (de
Inventor
Kazunori C/O Nec Corporation Ozawa
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from JP5310522A external-priority patent/JP3024467B2/ja
Priority claimed from JP06032104A external-priority patent/JP3092436B2/ja
Application filed by NEC Corp filed Critical NEC Corp
Publication of EP0657874A1 publication Critical patent/EP0657874A1/de
Application granted granted Critical
Publication of EP0657874B1 publication Critical patent/EP0657874B1/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0004Design or structure of the codebook
    • G10L2019/0005Multi-stage vector quantisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0013Codebook search algorithms

Definitions

  • a weighted squared error between a supplied voice signal and a regenerated signal from the codebook or the multi-pulse is used when searching a codebook consisting of multi-pulses, adaptive codebook and noise signals.
  • the number of bits of codebook in each subframe is supposed constant when searchino a codebook consisting of noise signals. Additionally, the number of multipulses in a frame or a subframe is also constant when calculating a multipulse.
  • Another object of the present invention is to provide a voice coding art matching auditory feeling.
  • a voice coder comprising a masking calculating means for calculating masking threshold values from supplied discrete voice signals based on auditory sense masking characteristics, auditory sense weighting means for calculating filter coefficients based on the masking threshold values and weighting input signals based on the filter coefficients, a plurality of codebooks, each of them consisting of a plurality of code vectors, and a searching means for searching a code vector that minimizes output signal power of the auditory sense weighting means from the codebooks.
  • the voice coder of the present invention performs, for each of subframes created by dividing frames, auditory sense weighting calculated based on auditory sense masking characteristics to signals supplied to adaptive codebooks, excitation codebooks or multi-pulse when searching adaptive codebooks and excitation codebooks or calculating multi-pulses.
  • auditory sense weighting masking threshold values are calculated based on auditory sense masking characteristics
  • an error scale is calculated by performing auditory sense weighting to supplied signals based on the masking threshold values.
  • an optimal code vector is calculated from the codebooks so as to minimize the error scale. Namely, a code vector that minimizes weighted error power as shown in the following equation.
  • Fig.1 is a block diagram showing the first embodiment of the present invention.
  • Fig.2 is a block diagram showing the second embodiment of the present invention.
  • Fig.3 is a block diagram showing the third embodiment of the present invention.
  • Fig.5 is a block diagram showing the fifth embodiment of the present invention.
  • Fig.6 is a block diagram showing the sixth embodiment.
  • Fig.7 is a block diagram showing the seventh embodiment.
  • Fig.8 is a block diagram showing the seventh embodiment.
  • Fig.9 is a block diagram showing the eighth embodiment.
  • an error signal output from an auditory sense weighting filter based on masking threshold values is used for searching an excitation codebook.
  • Fig.1 is a block diagram of a voice coder by the present invention.
  • voice signals are input from an input terminal 100, voice signals of one frame (20ms, for example) are stored in a buffer memory 110.
  • An LPC analyzer 130 performs well-known LPC analysis from one frame voice signal, and calculates LSP parameters representing spectral characteristics of voice signals for a pre-set number of orders.
  • LSP parameter coding a transforming method of LSP parameter and linear prediction coefficient to the paper titled "Quantizer design in LSP speech analysis-synthesis" (IEEE J. Sel. Areas Common., PP.432-440, 1988) by Sugamura et al. (reference No.4 ) and so on.
  • vector to scaler quantization or other well-known vector quantizing methods for more efficiently quantizing LSP parameters.
  • vector to scaler quantization of LS it is possible to refer to the paper titled "Transform Coding of Speech using a Weighted Vector Quantizer” (IEEE J. Sel. Areas, Commun., pp.425-431, 1988) by Moriya et al. (reference No.5) and so on.
  • a subtracter 190 subtracts an output wave x(n) of the synthesis filter 281 from the voice signal x(n), and outputs a signal x'(n).
  • an adaptive code vector ⁇ ⁇ v(n-M)*h(n) is calculated.
  • the subtracter 195 subtracts the adaptive code vector from the signal x'(n), outputs a signal x z (n).
  • x z ( n ) x '( n )- ⁇ • v ( n - M )* h ( n )
  • x z (n) is an error signal
  • x'(n) is an output signal of the subtracter 190
  • v(n) is a past synthesis filter driving signal
  • h(n) is an impulse response of the synthesis filter calculated from linear prediction coefficients.
  • bl i , bh i respectively show lower limit frequency and upper limit frequency of i-th critical band.
  • R shows number of critical bands included in a voice signal band.
  • a masking threshold value C(i) in each critical band is calculated using the values of the equation (4), and output.
  • an excitation codebook searching circuit 230 selects an excitation code vector so as to minimize the following equation (7).
  • a multiplexer 260 combines output coded strings of the LSP quantizer 140, the adaptive codebook 210 and the excitation codebook searching circuit 230, and outputs a result.
  • a band dividing circuit 300 for subbanding in advance input voices is further provided to the first embodiment.
  • the number of divisions is supposed as two and a method using QMF filter is used for the dividing method. Under these conditions, signals of lower frequency and those of higher frequency are output.
  • the frequency band width of input voice be fw(Hz)
  • a switch 310 is pushed over when processing lower band signals and pulled down when processing higher band signals.
  • auditory sense weighting filter coefficients are calculated in the same manner as the first embodiment, performed auditory sense weighting, and searching of an excitation codebook is conducted.
  • the third embodiment further comprises a bit allocation section for allocating quantization bits to voice signals in subbanded bands in addition to the second embodiment.
  • Fig.3 is a block diagram showing the third embodiment.
  • a component referred with the same number as that of Fig.1 and Fig.2 is omitted to be explained because is operates similarly in Fig.1 and Fig.2.
  • a masking threshold value calculator 360 calculates masking threshold values in all bands for signals that are not subbanded yet, and allocates them to the lower band or the higher band. Then, the masking threshold value calculator 360 calculates auditory sense weighting filter coefficients for the lower band or the higher band in the same manner as the first embodiment, and outputs them to the auditory sense weighting circuit 220.
  • bit allocation calculator 340 uses outputs of the masking threshold value calculator 360 to allocate a number of quantization bit in the lower band and the higher band, outputs results to a codebook switching circuit 350.
  • bit allocation methods there are some methods, for example, a method using a power ratio of a subbanded lower band signal and a subbanded higher band signal, or a method using a ratio of a lower band mean or minimum masking threshold value and a higher band mean or maximum masking threshold value when calculating masking threshold values in the masking threshold value calculator 360.
  • the codebook switching circuit 350 inputs a number of quantization bits from the allocation circuit 340, and inputs lower band information and higher band information from the switch 320-2, and switches excitation codebooks and gain codebooks.
  • the codebook can be a random numbers codebook having predetermined stochastic characteristics.
  • bit allocation it is possible to use another well-known method such as a method using a power ratio of the lower band and the higher band.
  • a multi-pulse calculator 3000 for calculating multi-pulses is provided, instead of the excitation codebook searching circuit 230.
  • g j is j-th multi-pulse amplitude
  • m j is j-th multi-pulse location
  • k is a number of multi-pulses.
  • the output signal of the adaptive codebook is input to the subtracter 195 in the same manner as the first embodiment and used for searching of the excitation codebook.
  • critical band analysis filters in the above-mentioned embodiments can be substituted by the other well-known filters operating equivalently to the critical band analysis filters.
  • calculation methods for the masking threshold values can be substituted by the other well-known methods.
  • the explanation of the above embodiment is of a 1-stage excitation codebook.
  • the excitation codebook could also be multi-staged, for example, 2-staged. This kind of codebook could reduce complexity of computations required for searching.
  • the adaptive codebook was given as primary, but sound quality can be improved to secondary or higher degrees or by using decimal value instead of integer as delay values.
  • the paper titled, "Pitch predictors with high temporal resolution” Proc. ICASSP, pp.661-664, 1990
  • P. Kroon et al. Reference No.15
  • LSP parameters are coded as the spectrum parameters and analyzed by LPC analysis, but other common parameters, for example, LPC cepstrum, cepstrum, improved cepstrum, generalized cepstrum, melcepstrum or the like can also be used for the spectrum parameters.
  • the optimal analysis method can be used for each parameter.
  • vector quantization can be conducted after nonlinear conversion is conducted on LSP parameters to account for auditory sense characteristics.
  • a known example of nonlinear conversion is Mel conversion.
  • LPC coefficients calculated from frames may be interpolated for each subframe in relation to LSP or in relation to linear predictive coefficients and use the interpolated coefficients in searches of the adaptive codebook and the excitation codebook. Sound quality can be further improved with this type of configuration.
  • Fig.6 is a block diagram showing the sixth embodiment. Here, for simplicity, an example of allocating number of bits of codebooks based on masking threshold values at searching excitation codebooks is shown. However, it can be applied for adaptive codebooks and other types of codebooks.
  • voice signals are input from an input terminal 600 and one frame of voice signals (20 ms, for example) is stored in a buffer memory 610.
  • An LPC analyzer 630 conducts well-known LPC analysis from voice signals of said frames and calculates LPC parameters that represent spectral characteristics of framed voice signals for a preset number of letters L.
  • an LSP quantization circuit 640 quantizes the LSP parameters in a preset number of quantization bit and outputs the obtained code lk to a multiplexer 790.
  • an impulse response circuit 670 and a synthetic filter 795 For coding method of LSP parameters and transformation of LSP parameters and linear prediction coefficients, it is possible to refer to the above-mentioned Reference No.4, etc.
  • vector-scaler quantization or other well-known vector quantization methods can be used for more efficient quantization of LSP parameters.
  • the above-mentioned Reference No.5, etc. can be referred to.
  • a subframe dividing circuit 650 divides framed voice signals into subframes.
  • subframe length is supposed as 5 ms.
  • An impulse response calculating circuit 670 calculates impulse response h wm (n) of a filter having transfer characteristics of Equation (22) in a preset length, and outputs a result.
  • a w ( z ) H wm ( z )•[1/ A ( z )]
  • An adaptive codebook 710 inputs the weighted impulse response h wn (n) from the impulse response calculating circuit 670, a weighted signal from the subtracter 690, respectively. Then, it performs pitch prediction based on long-term correlation, calculates delay M and gain ⁇ as pitch parameters.
  • a bit allocating circuit 715 inputs a masking threshold value spectrum T i , T' i or T'' i . Then, it performs bit allocation according to the Equation (25) or the Equation (26).
  • bit allocation information is output to the multiplexer 790.
  • the gain codebook searching circuit 760 searches and outputs a gain code vector that minimizes the following equation using a selected excitation code vector and the gain codebook 770.
  • indexes of the selected adaptive code vector, the excitation code vector and the gain code vector are output.
  • a subbanding circuit 800 divides voice signals into a preset number of bands, w, for example.
  • k and j of R kj represent j-th subframe and k-th band, respectively.
  • j 1...L
  • k 1...W.
  • Fig.8 is a block diagram showing configurations of the voice coding circuits 900 1 to 900 w .
  • the auditory sense weighting circuit 720 inputs the filter coefficient b i for performing auditory sense weighting, operates in the same manner as the auditory sense weighting circuit 720 in Fig.7.
  • the excitation codebook searching circuit 730 inputs the bit allocation value R kj for each band, and switches number of bits of excitation codebooks.
  • the excitation codebook searching circuit 1030 inputs bit allocation values for each subframe and band from the bit allocating circuit 920, and switches excitation codebooks for each band and subframe according to the bit allocation values. It has N kinds of codebooks of which number of bits are different, for respective bands. For example, the band 1 has codebooks 1000 11 to 1000 1N .
  • bit allocation method for deciding bit allocation method, it is possible a method of clustering SMR in advance, designing codebooks for bit allocation, in which SMR for each cluster and allocation number of bits are configured in a table, for a preset bit number (B bits, for example), and using these codebooks for calculating bit allocation in the bit allocating circuit.
  • codebooks for bit allocation in which SMR for each cluster and allocation number of bits are configured in a table, for a preset bit number (B bits, for example), and using these codebooks for calculating bit allocation in the bit allocating circuit.
  • Equation (33) can be used for bit allocation for each subframe and band.
  • Q k is a number of critical bands included in k-th subband.
  • bit allocating method in the bit allocating circuits 715 and 920, it it possible to allocate a number of bits once, perform quantization using excitation codebooks by the allocated number of bits, measure quantization noises and adjust bit allocation so that Equation (34) is maximized.
  • ⁇ nj 2 is a quantization noise measured by using j-th subframe.
  • Fig .10 is a block diagram showing the ninth embodiment. Explanation for a component in Fig.10 referred by the same number as that in Fig.7 is omitted, because it operates similarly to that of Fig.7.
  • a multipluse calculating circuit 1100 for calculating multipulses is provided instead of the excitation codebook searching circuit 730.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Claims (34)

  1. Sprachcodierer mit:
    einer Maskierberechnungseinrichtung (205, 360, 910) zum Berechnen von Maskierschwellwerten aus gelieferten diskreten Sprachsignalen auf der Grundlage von Hörgefühlsmaskiermerkmalen;
    einer Hörgefühlswichtungseinrichtung (220) zum Berechnen von Filterkoeffizienten auf der Grundlage der Maskierschwellwerte und Wichtungseingangssignale auf der Grundlage der Filterkoeffizienten;
    einem Codebuch (210, 235), das aus mehreren Codevektoren besteht; und
    einer Sucheinrichtung (230) zum Suchen eines Codevektors, der eine Ausgangssignalleistung der Hörgefühlswichtungseinrichtung minimiert, aus dem Codebuch.
  2. Sprachcodierer nach Anspruch 1, wobei das Codebuch ein Erregungscodebuch (235) ist.
  3. Sprachcodierer nach Anspruch 1, wobei das Codebuch ein adaptives Codebuch (210, 710) ist.
  4. Sprachcodierer nach einem der Ansprüche 1 bis 3, mit einer Teilrahmenerzeugungseinrichtung (150) zum Teilen der Sprachsignale in Rahmen einer vorher festgelegten Zeitlänge und zum Erzeugen von Teilrahmen durch Teilen der Rahmen in vorher festgelegte Zeitlängeneinteilungen, wobei das Durchsuchen des Codebuchs nach jedem Teilrahmen durchgeführt wird.
  5. Sprachcodierer nach Anspruch 1, ferner mit:
    einer Teilungseinrichtung (110) zum Teilen der gelieferten diskreten Sprachsignale in vorher festgelegte Zeitlängenrahmen;
    einer Teilrahmenerzeugungseinrichtung (150) zum Erzeugen von Teilrahmen durch Teilen der Rahmen in vorher festgelegte Zeitlängeneinteilungen;
    einer adaptiven Codebucheinrichtung, die Teil des Codebuchs ist, zum Regenerieren der Sprachsignale für die Teilrahmen auf der Grundlage eines adaptiven Codebuchs (210, 710);
    wobei die Maskierberechnungseinrichtung zum Berechnen von Maskierschwellwerten für jeden der Teilrahmen dient;
    wobei die Hörgefühlswichtungseinrichtung ferner zum Durchführen einer Hörgefühlswichtung an einem Fehlersignal eines mit der adaptiven Codebucheinrichtung regenerierten Signals und eines Sprachsignals dient;
    einem Erregungscodebuch (235), das ein weiterer Teil des Codebuchs ist und das aus mehreren Codevektoren besteht; und
    wobei die Sucheinrichtung zum Suchen eines Codevektors dient, der Fehlersignalleistung minimiert, die mit der Hörgefühlswichtungseinrichtung gewichtet ist.
  6. Sprachcodierer nach Anspruch 1, ferner mit:
    einer Teilungseinrichtung (110) zum Teilen der gelieferten diskreten Sprachsignale in vorher festgelegte Zeitlängenrahmen;
    einer Teilrahmenerzeugungseinrichtung (150) zum Erzeugen von Teilrahmen durch Teilen der Rahmen in vorher festgelegte Zeitlängeneinteilungen;
    wobei die Maskierberechnungseinrichtung zum Berechnen von Maskierschwellwerten für jeden der Teilrahmen dient;
    wobei die Hörgefühlswichtungseinrichtung (220) ferner zum Durchführen einer Hörgefühlswichtung an den Sprachsignalen dient;
    einer adaptiven Codebucheinrichtung (210), die Teil des Codebuchs ist, zum Berechnen eines adaptiven Codevektors, der eine Leistung eines Differenzsignals zwischen einem Antwortsignal und einem Sprachsignal minimiert, das mit der Hörgefühlswichtungseinrichtung gewichtet ist;
    wobei das Codebuch ein Erregungscodebuch (235) ist, das ein weiterer Teil des Codebuchs ist und aus mehreren Erregungscodevektoren besteht; und
    wobei die Sucheinrichtung zum Suchen eines Codevektors dient, der eine Fehlersignalleistung zwischen einem Ausgangssignal der adaptiven Codebucheinrichtung und dem Differenzsignal minimiert.
  7. Sprachcodierer nach Anspruch 6, wobei die adaptive Codebucheinrichtung (210, 710) für jeden der Teilrahmen einen Tonhöhenparameter berechnet, so daß ein Signal, das auf der Grundlage eines adaptiven Codebuchs regeneriert ist, das aus vorherigen Erregungssignalen besteht, dem Sprachsignal nahekommt.
  8. Sprachcodierer mit:
    einer Teilungseinrichtung (110) zum Teilen gelieferter diskreter Sprachsignale in vorher festgelegte Zeitlängenrahmen;
    einer Teilrahmenerzeugungseinrichtung (150) zum Erzeugen von Teilrahmen durch Teilen der Rahmen in vorher festgelegte Zeitlängeneinteilungen;
    einer adaptiven Codebucheinrichtung (210) zum Regenerieren der Sprachsignale für jeden der Teilrahmen auf der Grundlage eines adaptiven Codebuchs;
    einer Maskierberechnungseinrichtung (205) zum Berechnen von Maskierschwellwerten aus den Sprachsignalen auf der Grundlage von Hörgefühlsmaskiermerkmalen;
    einer Hörgefühlswichtungseinrichtung (220) zum Berechnen von Filterkoeffizienten auf der Grundlage der Maskierschwellwerte und zum Durchführen einer Hörgefühlswichtung an einem Fehlersignal zwischen dem Sprachsignal und einem Signal, das mit der adaptiven Codebucheinrichtung auf der Grundlage der Filterkoeffizienten regeneriert ist; und
    einer Berechnungseinrichtung (3000) zum Berechnen eines Mehrfachimpulses, der eine Fehlersignalleistung minimiert, die mit der Hörgefühlswichtungseinrichtung gewichtet ist.
  9. Sprachcodierer nach einem der Ansprüche 1 bis 8, ferner mit einer Bandteilungseinrichtung zum Bandteilen der Sprachsignale, wobei die Hörgefühlswichtungseinrichtung eine Wichtung an einem Signal durchführt, das von der Bandteilungseinrichtung bandgeteilt ist.
  10. Sprachcodierer nach Anspruch 9, ferner mit:
    einer Bitzuweisungseinrichtung (340, 715) zum Zuweisen von Quantisierungsbits an bandgeteilte Signale; und
    einer Umschalteinrichtung (350) zum Umschalten einer Anzahl von Bits des Erregungscodebuchs entsprechend den Bits, die mit der Zuweisungseinrichtung zugewiesen sind.
  11. Sprachcodierer nach einem der Ansprüche 1 bis 10, mit einer Spektralparameterberechnungseinrichtung zum Berechnen und Ausgeben, für jeden der Rahmen, eines Spektralparameters, der eine Spektralhüllkurve der Sprachsignale darstellt.
  12. Sprachcodierer nach Anspruch 8, wobei
       die adaptive Codebucheinrichtung zum Berechnen von Tonhöhenparametern vorgesehen ist, um zu bewirken, daß Signale, die auf der Grundlage der adaptiven Codebücher regeneriert sind, die aus vorherigen Erregungssignalen bestehen, für jeden der Teilrahmen den Sprachsignalen nahekommen;
       wobei der Sprachcodierer ferner aufweist:
    eine Entscheidungseinrichtung zum Festlegen einer Anzahl von Mehrfachimpulsen für jeden der Teilrahmen auf der Grundlage der Maskierschwellwerte; wobei
    die Berechnungseinrichtung einen Mehrfachimpuls, der die Fehlersignalleistung minimiert, unter Verwendung einer Anzahl von Mehrfachimpulsen berechnet, die für jeden der Teilrahmen festgelegt sind, und Erregungssignale der Sprachsignale unter Verwendung des Mehrfachimpulses darstellt.
  13. Sprachcodierer nach Anspruch 1 mit:
       einer Teilungseinrichtung (610, 650) zum Teilen gelieferter diskreter Sprachsignale in Rahmen einer vorher festgelegten Zeitlänge und zum weiteren Teilen der Rahmen in Teilrahmen einer vorher festgelegten Zeitlänge;
       wobei der Sprachcodierer ferner aufweist:
    eine Entscheidungseinrichtung zum Festlegen einer Anzahl von Mehrfachimpulsen für jeden der Teilrahmen auf der Grundlage der Maskierschwellwerte; und
    eine Einrichtung zum Darstellen von Erregungssignalen der Sprachsignale in Form eines Mehrfachimpulses unter Verwendung einer Anzahl von Mehrfachimpulsen, die für jeden der Teilrahmen festgelegt sind.
  14. Sprachcodierer nach Anspruch 13, ferner mit einer Bandteilungseinrichtung zum Bandteilen der Sprachsignale, wobei die Entscheidungseinrichtung eine Anzahl von Mehrfachimpulsen für jedes bandgeteilte Signal festlegt.
  15. Sprachcodierer nach Anspruch 1, ferner mit:
    einer Teilungseinrichtung (610, 650) zum Teilen gelieferter diskreter Sprachsignale in Rahmen einer vorher festgelegten Zeitlänge und zum weiteren Teilen der Rahmen in Teilrahmen einer vorher festgelegten Zeitlänge;
    wobei das Codebuch so strukturiert ist, daß es mehrere Codebücher (7501, ..., 750N; 10001, ..., 100N) enthält, deren Bitanzahlen sich voneinander unterscheiden;
    einer Bitanzahlzuweisungseinrichtung (715, 920) zum Zuweisen einer Anzahl von Bits der Codebücher auf der Grundlage der Maskierschwellwerte; und
    wobei die Sucheinrichtung (730, 1030) zum Suchen eines Codevektors durch Umschalten der Codebücher für jeden der Teilrahmen auf der Grundlage der zugewiesenen Anzahl von Bits dient.
  16. Sprachcodierer nach Anspruch 15, wobei die Codebücher Erregungscodebücher sind.
  17. Sprachcodierer nach Anspruch 15, wobei die Codebücher Verstärkungscodebücher sind.
  18. Sprachcodierer nach einem der Ansprüche 15 bis 17, ferner mit einer Bandteilungseinrichtung zum Bandteilen der Sprachsignale.
  19. Sprachcodierer nach Anspruch 16, ferner mit:
    einer adaptiven Codebucheinrichtung (710) zum Berechnen von Tonhöhenparametern, um zu bewirken, daß Signale, die auf der Grundlage der adaptiven Codebücher regeneriert sind, die aus vorherigen Erregungssignalen bestehen, für jeden der Teilrahmen den Sprachsignalen nahekommen;
    wobei die Hörgefühlswichtungseinrichtung ferner zum Durchführen einer Hörgefühlswichtung an den Fehlersignalen zwischen Signalen, die mit der adaptiven Codebucheinrichtung regeneriert sind, und den Sprachsignalen auf der Grundlage der Filterkoeffizienten dient;
    wobei die Sucheinrichtung zum Umschalten der Erregungscodebücher für jeden der Teilrahmen auf der Grundlage der zugewiesenen Anzahl von Bits und zum Suchen eines Erregungscodevektors, der Fehlersignalleistung minimiert, die mit der Hörgefühlswichtungseinrichtung gewichtet ist, aus einem umgeschalteten Erregungscodebuch dient.
  20. Sprachcodierer nach Anspruch 19, ferner mit einer Bandteilungseinrichtung zum Bandteilen der Sprachsignale, wobei die Bitzuweisungseinrichtung bandgeteilten Signalen eine Bitanzahl zuweist.
  21. Sprachcodierer nach Anspruch 18 oder 20, wobei Impulsantworten von Bandteilungsfiltern in den Codebüchern gefaltet werden.
  22. Verfahren zum Durchsuchen eines Codebuchs, das zum Codieren von diskreten Sprachsignalen verwendet wird, unter Verwendung von Signalen, die mit Maskierschwellwerten gewichtet sind, die aus den Sprachsignalen auf der Grundlage von Hörgefühlsmaskiermerkmalen berechnet sind;
       wobei Filterkoeffizienten auf der Grundlage der Maskierschwellwerte berechnet werden und die Eingangssignale auf der Grundlage der Filterkoeffizienten gewichtet werden.
  23. Verfahren nach Anspruch 22, mit den Schritten:
    (a) Teilen der Sprachsignale in vorher festgelegte Zeitlängenrahmen;
    (b) Erzeugen von Teilrahmen durch Teilen der Rahmen in vorher festgelegte Zeitlängeneinteilungen;
    (c) Regenerieren der Sprachsignale für jeden der Teilrahmen auf der Grundlage eines adaptiven Codebuchs;
    (d) Berechnen von Maskierschwellwerten aus den Sprachsignalen auf der Grundlage von Hörgefühlsmaskiermerkmalen;
    (e) Berechnen von Filterkoeffizienten auf der Grundlage der Maskierschwellwerte und Durchführen einer Hörgefühlswichtung an einem Fehlersignal zwischen einem in dem Schritt (c) regenerierten Signal und dem Sprachsignal auf der Grundlage der Filterkoeffizienten; und
    (f) Suchen eines Erregungscodevektors, der eine in dem Schritt (e) gewichtete Fehlersignalleistung minimiert.
  24. Verfahren nach Anspruch 22, mit den Schritten:
    (a) Teilen der Sprachsignale in vorher festgelegte Zeitlängenrahmen;
    (b) Erzeugen von Teilrahmen durch Teilen der Rahmen in vorher festgelegte Zeitlängeneinteilungen;
    (c) Berechnen von Maskierschwellwerten aus den Sprachsignalen auf der Grundlage von Hörgefühlsmaskiermerkmalen;
    (d) Berechnen von Filterkoeffizienten auf der Grundlage der Maskierschwellwerte und Durchführen einer Hörgefühlswichtung an dem Sprachsignal auf der Grundlage der Filterkoeffizienten;
    (e) Berechnen, für jeden der Teilrahmen und unter Verwendung eines Differenzsignals zwischen einem Antwortsignal und einem in dem Schritt (d) gewichteten Sprachsignal, eines adaptiven Codevektors, der eine Leistung des Differenzsignals minimiert, und Regenerieren des Sprachsignals; und
    (f) Suchen eines Erregungscodevektors, der eine Fehlersignalleistung zwischen einem in dem Schritt (e) regenerierten Signal und dem Sprachsignal minimiert.
  25. Verfahren nach Anspruch 23 oder 24, mit dem Schritt: (g) Berechnen eines Mehrfachimpulses, der eine in dem Schritt (e) gewichteten Fehlersignalleistung minimiert, anstelle des Schrittes (f).
  26. Verfahren nach Anspruch 23 oder 24, ferner mit einem Schritt des Bandteilens der Sprachsignale, wobei der Schritt (d) ein Schritt des Durchführens einer Wichtung an bandgeteilten Signalen ist.
  27. Verfahren nach Anspruch 26, ferner mit einem Schritt des Zuweisens von Quantisierungsbits an bandgeteilte Signale und einem Schritt des Umschaltens einer Anzahl von Bits des Erregungscodebuchs entsprechend den Bits, die in dem Schritt des Zuweisens von Quantisierungsbits zugewiesen werden.
  28. Verfahren nach Anspruch 22, mit den Schritten:
    (a) Schritt des Teilens gelieferter diskreter Sprachsignale in Rahmen von vorher festgelegter Zeitlänge und des weiteren Teilens der Rahmen in Teilrahmen von vorher festgelegter Zeitlänge;
    (b) Schritt des Berechnens von Maskierschwellwerten aus den Sprachsignalen auf der Grundlage von Hörgefühlsmaskiermerkmalen;
    (c) Schritt des Zuweisens einer Bitanzahl von Codebüchern an jeden der Teilrahmen auf der Grundlage der Maskierschwellwerte; und
    (d) Schritt des Suchens eines Codevektors für jeden der Teilrahmen unter Verwendung eines Codebuchs mit zugewiesener Bitanzahl.
  29. Verfahren nach Anspruch 28, wobei die Codebücher Erregungscodebücher sind.
  30. Verfahren nach Anspruch 28, wobei die Codebücher Verstärkungscodebücher sind.
  31. Verfahren nach einem der Ansprüche 28 bis 30, wobei die Schritte (b) bis (d) in jedem Band durchgeführt werden.
  32. Verfahren nach Anspruch 31, wobei Impulsantworten von Bandteilungsfiltern vorher gefaltet werden.
  33. Mehrfachimpulsberechnungsverfahren mit:
    (a) Schritt des Teilens und Bandteilens gelieferter diskreter Sprachsignale in Rahmen einer vorher festgelegten Zeitlänge und ferner des Teilens der Rahmen in Teilrahmen einer vorher festgelegten Zeitlänge;
    (b) Schritt des Berechnens von Maskierschwellwerten aus den Sprachsignalen auf der Grundlage von Hörgefühlsmaskiermerkmalen;
    (c) Schritt des Festlegens einer Anzahl von Mehrfachimpulsen für jeden der Teilrahmen auf der Grundlage der Maskierschwellwerte; und
    (d) Schritt des Berechnens eines Mehrfachimpulses, der die Fehlersignalleistung minimiert, unter Verwendung einer Anzahl von Mehrfachimpulsen, die für jeden der Teilrahmen festgelegt sind, und des Darstellens von Erregungssignalen der Sprachsignale unter Verwendung des Mehrfachimpulses.
  34. Mehrfachimpulsberechnungsverfahren nach Anspruch 33, wobei die Schritte (b) bis (d) in jedem Band durchgeführt werden.
EP94119533A 1993-12-10 1994-12-09 Stimmkodierer und Verfahren zum Suchen von Kodebüchern Expired - Lifetime EP0657874B1 (de)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
JP31052293 1993-12-10
JP5310522A JP3024467B2 (ja) 1993-12-10 1993-12-10 音声符号化装置
JP310522/93 1993-12-10
JP3210494 1994-03-02
JP32104/94 1994-03-02
JP06032104A JP3092436B2 (ja) 1994-03-02 1994-03-02 音声符号化装置

Publications (2)

Publication Number Publication Date
EP0657874A1 EP0657874A1 (de) 1995-06-14
EP0657874B1 true EP0657874B1 (de) 2001-03-14

Family

ID=26370630

Family Applications (1)

Application Number Title Priority Date Filing Date
EP94119533A Expired - Lifetime EP0657874B1 (de) 1993-12-10 1994-12-09 Stimmkodierer und Verfahren zum Suchen von Kodebüchern

Country Status (4)

Country Link
US (1) US5633980A (de)
EP (1) EP0657874B1 (de)
CA (1) CA2137756C (de)
DE (1) DE69426860T2 (de)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3237089B2 (ja) * 1994-07-28 2001-12-10 株式会社日立製作所 音響信号符号化復号方法
KR970011727B1 (en) * 1994-11-09 1997-07-14 Daewoo Electronics Co Ltd Apparatus for encoding of the audio signal
JP2776277B2 (ja) * 1994-12-08 1998-07-16 日本電気株式会社 音声符号化装置
FR2729247A1 (fr) * 1995-01-06 1996-07-12 Matra Communication Procede de codage de parole a analyse par synthese
JPH08292797A (ja) * 1995-04-20 1996-11-05 Nec Corp 音声符号化装置
JP3308764B2 (ja) * 1995-05-31 2002-07-29 日本電気株式会社 音声符号化装置
JP3616432B2 (ja) * 1995-07-27 2005-02-02 日本電気株式会社 音声符号化装置
JP3196595B2 (ja) * 1995-09-27 2001-08-06 日本電気株式会社 音声符号化装置
JP3092653B2 (ja) * 1996-06-21 2000-09-25 日本電気株式会社 広帯域音声符号化装置及び音声復号装置並びに音声符号化復号装置
US8306811B2 (en) * 1996-08-30 2012-11-06 Digimarc Corporation Embedding data in audio and detecting embedded data in audio
US7024355B2 (en) * 1997-01-27 2006-04-04 Nec Corporation Speech coder/decoder
JP3063668B2 (ja) * 1997-04-04 2000-07-12 日本電気株式会社 音声符号化装置及び復号装置
DE19729494C2 (de) 1997-07-10 1999-11-04 Grundig Ag Verfahren und Anordnung zur Codierung und/oder Decodierung von Sprachsignalen, insbesondere für digitale Diktiergeräte
CA2239294A1 (en) * 1998-05-29 1999-11-29 Majid Foodeei Methods and apparatus for efficient quantization of gain parameters in glpas speech coders
CA2246532A1 (en) * 1998-09-04 2000-03-04 Northern Telecom Limited Perceptual audio coding
WO2001020595A1 (fr) * 1999-09-14 2001-03-22 Fujitsu Limited Codeur/decodeur vocal
US7010482B2 (en) * 2000-03-17 2006-03-07 The Regents Of The University Of California REW parametric vector quantization and dual-predictive SEW vector quantization for waveform interpolative coding
US7010480B2 (en) * 2000-09-15 2006-03-07 Mindspeed Technologies, Inc. Controlling a weighting filter based on the spectral content of a speech signal
US6801887B1 (en) * 2000-09-20 2004-10-05 Nokia Mobile Phones Ltd. Speech coding exploiting the power ratio of different speech signal components
DE10063079A1 (de) * 2000-12-18 2002-07-11 Infineon Technologies Ag Verfahren zum Erkennen von Identifikationsmustern
US6912495B2 (en) * 2001-11-20 2005-06-28 Digital Voice Systems, Inc. Speech model and analysis, synthesis, and quantization methods
JP5596341B2 (ja) * 2007-03-02 2014-09-24 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 音声符号化装置および音声符号化方法
JP5256756B2 (ja) * 2008-02-05 2013-08-07 パナソニック株式会社 Adpcm音声伝送システムの音声処理装置およびその音声処理方法

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4912764A (en) * 1985-08-28 1990-03-27 American Telephone And Telegraph Company, At&T Bell Laboratories Digital speech coder with different excitation types
US5012517A (en) * 1989-04-18 1991-04-30 Pacific Communication Science, Inc. Adaptive transform coder having long term predictor
JPH0782359B2 (ja) * 1989-04-21 1995-09-06 三菱電機株式会社 音声符号化装置、音声復号化装置及び音声符号化・復号化装置
EP0422232B1 (de) * 1989-04-25 1996-11-13 Kabushiki Kaisha Toshiba Stimmenkodierer
WO1992005541A1 (en) * 1990-09-14 1992-04-02 Fujitsu Limited Voice coding system
JP2906646B2 (ja) * 1990-11-09 1999-06-21 松下電器産業株式会社 音声帯域分割符号化装置
JP2776050B2 (ja) * 1991-02-26 1998-07-16 日本電気株式会社 音声符号化方式
US5195168A (en) * 1991-03-15 1993-03-16 Codex Corporation Speech coder and method having spectral interpolation and fast codebook search
FI98104C (fi) * 1991-05-20 1997-04-10 Nokia Mobile Phones Ltd Menetelmä herätevektorin generoimiseksi ja digitaalinen puhekooderi
JPH06138896A (ja) * 1991-05-31 1994-05-20 Motorola Inc 音声フレームを符号化するための装置および方法
JP3141450B2 (ja) * 1991-09-30 2001-03-05 ソニー株式会社 オーディオ信号処理方法
JP3446216B2 (ja) * 1992-03-06 2003-09-16 ソニー株式会社 音声信号処理方法
US5432883A (en) * 1992-04-24 1995-07-11 Olympus Optical Co., Ltd. Voice coding apparatus with synthesized speech LPC code book
US5495555A (en) * 1992-06-01 1996-02-27 Hughes Aircraft Company High quality low bit rate celp-based speech codec

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Schroeder and Atal: "Code-Excited Linear Prediction (CELP): High-Quality Speech at Very Low Bit Rates", ICASSP 1985, pp. 937-940 *

Also Published As

Publication number Publication date
DE69426860D1 (de) 2001-04-19
US5633980A (en) 1997-05-27
DE69426860T2 (de) 2001-07-19
CA2137756C (en) 2000-02-01
CA2137756A1 (en) 1995-06-11
EP0657874A1 (de) 1995-06-14

Similar Documents

Publication Publication Date Title
EP0657874B1 (de) Stimmkodierer und Verfahren zum Suchen von Kodebüchern
CA2202825C (en) Speech coder
EP0409239B1 (de) Verfahren zur Sprachkodierung und -dekodierung
US5140638A (en) Speech coding system and a method of encoding speech
EP0957472A2 (de) Vorrichtung zur Sprachkodierung und -dekodierung
EP0801377B1 (de) Vorrichtung zur Signalkodierung
JPH0990995A (ja) 音声符号化装置
KR100748381B1 (ko) 음성 코딩 방법 및 장치
US7680669B2 (en) Sound encoding apparatus and method, and sound decoding apparatus and method
JPH056199A (ja) 音声パラメータ符号化方式
US5873060A (en) Signal coder for wide-band signals
JPH0944195A (ja) 音声符号化装置
JP3095133B2 (ja) 音響信号符号化方法
EP0866443B1 (de) Sprachsignalkodierer
JPH0854898A (ja) 音声符号化装置
JP3153075B2 (ja) 音声符号化装置
JP3092436B2 (ja) 音声符号化装置
JP3192051B2 (ja) 音声符号化装置
JP3024467B2 (ja) 音声符号化装置
JP2808841B2 (ja) 音声符号化方式
JP3144244B2 (ja) 音声符号化装置
JPH09179593A (ja) 音声符号化装置
JP2907019B2 (ja) 音声符号化装置
JPWO2000000963A1 (ja) 音声符号化装置

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 19950321

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): DE FR GB IT

17Q First examination report despatched

Effective date: 19980629

GRAG Despatch of communication of intention to grant

Free format text: ORIGINAL CODE: EPIDOS AGRA

GRAG Despatch of communication of intention to grant

Free format text: ORIGINAL CODE: EPIDOS AGRA

GRAG Despatch of communication of intention to grant

Free format text: ORIGINAL CODE: EPIDOS AGRA

GRAH Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOS IGRA

RIC1 Information provided on ipc code assigned before grant

Free format text: 7G 10L 19/04 A, 7G 10L 19/10 B

GRAH Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOS IGRA

GRAH Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOS IGRA

GRAH Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOS IGRA

GRAA (expected) grant

Free format text: ORIGINAL CODE: 0009210

AK Designated contracting states

Kind code of ref document: B1

Designated state(s): DE FR GB IT

REF Corresponds to:

Ref document number: 69426860

Country of ref document: DE

Date of ref document: 20010419

ITF It: translation for a ep patent filed
ET Fr: translation filed
REG Reference to a national code

Ref country code: GB

Ref legal event code: IF02

PLBE No opposition filed within time limit

Free format text: ORIGINAL CODE: 0009261

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT

26N No opposition filed
PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: FR

Payment date: 20081212

Year of fee payment: 15

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: DE

Payment date: 20081205

Year of fee payment: 15

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: GB

Payment date: 20081203

Year of fee payment: 15

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: IT

Payment date: 20081229

Year of fee payment: 15

GBPC Gb: european patent ceased through non-payment of renewal fee

Effective date: 20091209

REG Reference to a national code

Ref country code: FR

Ref legal event code: ST

Effective date: 20100831

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: FR

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20091231

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: DE

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20100701

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: GB

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20091209

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: IT

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20091209