EP0865026B1 - Méthode pour la modification du débit de parole - Google Patents

Méthode pour la modification du débit de parole Download PDF

Info

Publication number
EP0865026B1
EP0865026B1 EP98104455A EP98104455A EP0865026B1 EP 0865026 B1 EP0865026 B1 EP 0865026B1 EP 98104455 A EP98104455 A EP 98104455A EP 98104455 A EP98104455 A EP 98104455A EP 0865026 B1 EP0865026 B1 EP 0865026B1
Authority
EP
European Patent Office
Prior art keywords
section
voice signal
segments
digitized
segment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
EP98104455A
Other languages
German (de)
English (en)
Other versions
EP0865026A3 (fr
EP0865026A2 (fr
Inventor
Holger Dr. Carl
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Grundig AG
Original Assignee
Grundig AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Grundig AG filed Critical Grundig AG
Publication of EP0865026A2 publication Critical patent/EP0865026A2/fr
Publication of EP0865026A3 publication Critical patent/EP0865026A3/fr
Application granted granted Critical
Publication of EP0865026B1 publication Critical patent/EP0865026B1/fr
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion

Definitions

  • the invention relates to a method for speed modification of Voice signals in the time domain, especially an efficient overlap add method.
  • SOLA Synchronized OverLap-Add
  • WSOLA Waveform Similarity OverLap - Add
  • the object of the invention is to provide a method for speed modification of Specify voice signals in the time domain that works particularly efficiently.
  • the version y (k) of a speech signal x (k) time-scaled by the factor ⁇ is generated according to the synthesis with a window function
  • the specified w (k) definition ensures that the condition necessary for meaningful overlap add is satisfied.
  • the shift variable ⁇ ⁇ contained in the above synthesis equation is to be determined from a "tolerance range" - ⁇ max , ..., ⁇ max for the purpose of the synchronization mentioned.
  • the basic procedure is as follows: Apart from a synchronization-related “jitter”, segments of length L + N are taken from the original signal x (apart from a synchronization-related “jitter”) and, after weighting with w (k), are added by L sample values each offset.
  • the signal y (k) obtained in this way is accelerated by a factor of ⁇ compared to x (k), that is to say that an utterance of K samples in the original signal x (k) length on this y (k) section by this procedure the length K / ⁇ is mapped, that is to say shortened and thus accelerated in the reproduction for ⁇ > 1, or lengthened, that is to say slowed down, if ⁇ ⁇ 1.
  • the weighting of this section with the rising edge of the window is represented by multiplying this vector by a diagonal matrix V, by the values v (0), ... v (N-1) is occupied.
  • the weighting of the ideal segment section x with the falling edge of the window is represented by multiplication by 1 - V, where 1 denotes the N ⁇ N unit matrix.
  • Another approach to synchronization is to minimize the error between the synthesized signal y and the original signal x instead of maximizing the "waveform similarity".

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Time-Division Multiplex Systems (AREA)
  • Analogue/Digital Conversion (AREA)

Claims (3)

  1. Procédé pour modifier la vitesse de signaux vocaux, notamment de signaux vocaux numérisés, selon lequel
    un signal vocal analogique est numérisé, ce qui fait apparaítre un signal vocal numérisé qui est mémorisé dans une mémoire,
    un facteur α est défini, facteur avec lequel le signal vocal est allongé ou raccourci,
    une fonction fenêtre comportant une première section montante de longueur N, une seconde section constante de longueur L-N, qui se raccorde directement à la première section, une troisième section' retombante, qui se raccorde à la seconde section, est définie, auquel cas lors d'une superposition de la première section montante d'une fenêtre avec la troisième section retombante d'une autre fenêtre et lors d'une addition des deux sections dans la zone de chevauchement, on obtient le résultat un, qui correspond à la valeur de la seconde section de la fonction fenêtre,
    αL segments ayant une longueur définie L+N sont prélevés du signal vocal numérisé et mémorisé, à des intervalles irréguliers ayant une longueur moyenne,
    ces segments prélevés du signal numérisé et mémorisé sont pondérés avec la fonction fenêtre dans le domaine temporel,
    les segments pondérés sont additionnés en étant décalés respectivement d'un nombre défini de valeurs d'échantillonnage L, ce qui a pour effet que le signal vocal ainsi obtenu est raccourci pour α > 1 et est allongé pour α < 1,
    le segment prélevé dans le signal vocal numérisé, et pondéré avec la fonction fenêtre est comparé, et ce successivement aux emplacements du prélèvement des segments à partir du signal vocal numérisé, au segment prélevé ensuite, également pondéré avec la fonction fenêtre, selon des aspects de similitude,
    caractérisé en ce
    que pour la comparaison rapide de la similitude des segments, seule la troisième section du segment, qui possède une longueur de N valeurs et est pondérée par la section fenêtre retombante du segment est comparée à la section montante d'une longueur de N valeurs, qui est pondérée par la section fenêtre, du segment prélevé ensuite,
    que ces segments sont additionnés en étant décalés les uns par rapport aux autres de telle sorte que la similitude des sections de segments devienne maximale, et
    que pour le calcul de la similitude, on utilise une corrélation en tant que mesure de cette similitude.
  2. Procédé selon la revendication 1, caractérisé en ce que
    la similitude des deux sections comparées de segment devient maximale lorsqu'on rend maximum le degré de similitude par rapport au décalage réciproque des segments.
  3. Procédé pour modifier la vitesse de signaux vocaux, notamment de signaux vocaux numérisés, selon lequel un signal vocal analogique est numérisé, ce qui fait apparaítre un signal vocal numérisé qui est mémorisé dans une mémoire,
    un facteur α est défini, facteur avec lequel le signal vocal est allongé ou raccourci,
    une fonction fenêtre comportant une première section montante de longueur N, une seconde section constante de longueur L-N, qui se raccorde directement à la première section, et une troisième section retombante, qui se raccorde à la seconde section, est définie, auquel cas lors d'une superposition de la première section montante d'une fenêtre avec la troisième section retombante d'une autre fenêtre et lors d'une addition des deux sections dans la zone de chevauchement, on obtient le résultat un, qui correspond à la valeur de la seconde section de la fonction fenêtre,
    αL segments ayant une longueur définie L+N sont prélevés du signal vocal numérisé et mémorisé, à des intervalles irréguliers ayant une longueur moyenne,
    ces segments prélevés du signal numérisé et mémorisé sont pondérés avec la fonction fenêtre dans le domaine temporel,
    les segments pondérés sont additionnés en étant décalés respectivement d'un nombre défini de valeurs d'échantillonnage L, ce qui a pour effet que le signal vocal ainsi obtenu est raccourci pour α > 1 et est allongé pour α < 1,
    le segment prélevé dans le signal vocal numérisé, et pondéré avec la fonction fenêtre est comparé, et ce successivement aux emplacements de prélèvement des segments à partir du signal vocal numérisé, au segment du signal vocal allongé ou raccourci, qui représente ce segment prélevé,
    caractérisé en ce
    que pour la comparaison rapide de l'écart entre le signal vocal allongé ou le signal vocal raccourci par rapport au signal vocal numérisé, on utilise comme référence uniquement la troisième section, d'une grandeur de N valeurs, du signal prélevé en dernier,
    qu'on additionne les segments prélevés d'une manière décalée entre eux de telle sorte que l'écart déterminé est minimum, et
    qu'on utilise comme mesure de l'écart l'erreur relative ou l'erreur quadratique absolue.
EP98104455A 1997-03-14 1998-03-12 Méthode pour la modification du débit de parole Expired - Lifetime EP0865026B1 (fr)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE19710545 1997-03-14
DE19710545A DE19710545C1 (de) 1997-03-14 1997-03-14 Effizientes Verfahren zur Geschwindigkeitsmodifikation von Sprachsignalen

Publications (3)

Publication Number Publication Date
EP0865026A2 EP0865026A2 (fr) 1998-09-16
EP0865026A3 EP0865026A3 (fr) 1999-02-10
EP0865026B1 true EP0865026B1 (fr) 2003-12-03

Family

ID=7823336

Family Applications (1)

Application Number Title Priority Date Filing Date
EP98104455A Expired - Lifetime EP0865026B1 (fr) 1997-03-14 1998-03-12 Méthode pour la modification du débit de parole

Country Status (3)

Country Link
EP (1) EP0865026B1 (fr)
AT (1) ATE255763T1 (fr)
DE (2) DE19710545C1 (fr)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9911737D0 (en) 1999-05-21 1999-07-21 Philips Electronics Nv Audio signal time scale modification
US7711123B2 (en) 2001-04-13 2010-05-04 Dolby Laboratories Licensing Corporation Segmenting audio signals into auditory events
US7610205B2 (en) 2002-02-12 2009-10-27 Dolby Laboratories Licensing Corporation High quality time-scaling and pitch-scaling of audio signals
US7283954B2 (en) 2001-04-13 2007-10-16 Dolby Laboratories Licensing Corporation Comparing audio using characterizations based on auditory events
US7461002B2 (en) 2001-04-13 2008-12-02 Dolby Laboratories Licensing Corporation Method for time aligning audio signals using characterizations based on auditory events
WO2002093560A1 (fr) 2001-05-10 2002-11-21 Dolby Laboratories Licensing Corporation Ameliorations apportees a la performance transitoire de systemes de codage audio a faible debit binaire par reduction du pre-bruit
DE10327057A1 (de) * 2003-06-16 2005-01-20 Siemens Ag Vorrichtung zum zeitlichen Stauchen oder Strecken, Verfahren und Folge von Abtastwerten
DE102004053093B4 (de) 2004-11-03 2006-08-17 Siemens Ag Verfahren zur Ausgabe eines Nutzdatenstroms und Kommunikationsendgerät zum Empfang und zur Ausgabe eines Nutzdatenstroms
JP2010017216A (ja) 2008-07-08 2010-01-28 Ge Medical Systems Global Technology Co Llc 音声データ処理装置,音声データ処理方法、および、イメージング装置
CN102855884B (zh) * 2012-09-11 2014-08-13 中国人民解放军理工大学 基于短时连续非负矩阵分解的语音时长调整方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0427953B1 (fr) * 1989-10-06 1996-01-17 Matsushita Electric Industrial Co., Ltd. Appareil et méthode pour la modification du débit de parole
US5630013A (en) * 1993-01-25 1997-05-13 Matsushita Electric Industrial Co., Ltd. Method of and apparatus for performing time-scale modification of speech signals
US5694521A (en) * 1995-01-11 1997-12-02 Rockwell International Corporation Variable speed playback system

Also Published As

Publication number Publication date
ATE255763T1 (de) 2003-12-15
EP0865026A3 (fr) 1999-02-10
DE19710545C1 (de) 1997-12-04
DE59810302D1 (de) 2004-01-15
EP0865026A2 (fr) 1998-09-16

Similar Documents

Publication Publication Date Title
DE69428612T2 (de) Verfahren und Vorrichtung zur Durchführung einer Zeitskalenmodifikation von Sprachsignalen
DE68919637T2 (de) Verfahren und Einrichtung zur Sprachsynthese durch Überdeckung und Summierung von Wellenformen.
DE69230324T2 (de) Verfahren zur Zeitskalenmodifikation von Signalen
DE60127274T2 (de) Schnelle wellenformsynchronisation für die verkettung und zeitskalenmodifikation von sprachsignalen
DE60305716T2 (de) Verfahren zum synthetisieren eines nicht stimmhaften sprachsignals
DE60214358T2 (de) Zeitskalenmodifikation von signalen mit spezifischem verfahren je nach ermitteltem signaltyp
DE69121312T2 (de) Geräuschsignalvorhersagevorrichtung
Verhelst Overlap-add methods for time-scaling of speech
DE69024919T2 (de) Einrichtung und Methode zur Veränderung von Sprechgeschwindigkeit
DE69926462T2 (de) Bestimmung des von einer phasenänderung herrührenden rauschanteils für die audiokodierung
DE69932786T2 (de) Tonhöhenerkennung
DE69613646T2 (de) Verfahren zur Sprachdetektion bei starken Umgebungsgeräuschen
DE2659096C2 (fr)
EP0865026B1 (fr) Méthode pour la modification du débit de parole
DE69612958T2 (de) Verfahren und vorrichtung zur resynthetisierung eines sprachsignals
DE69720861T2 (de) Verfahren zur Tonsynthese
DE19859174C1 (de) Verfahren und Vorrichtung zur Verarbeitung rauschbehafteter Schallsignale
DE60031812T2 (de) Vorrichtung und Verfahren zur Klangsynthesierung
DE69824613T2 (de) Ein system und verfahren zur prosodyanpassung
DE69421704T2 (de) Verfahren und vorrichtung zum testen einer fernmeldeanlage unter verwendung eines testsignals mit verminderter redundanz
DE69717377T2 (de) Sprachgeschwindigkeitsumwandler
DE102004028694B3 (de) Vorrichtung und Verfahren zum Umsetzen eines Informationssignals in eine Spektraldarstellung mit variabler Auflösung
DE3228757A1 (de) Verfahren und vorrichtung zur zeitabhaengigen komprimierung und synthese von hoerbaren signalen
DE69723930T2 (de) Verfahren und Vorrichtung zur Sprachsynthese und Programm enthaltender Datenträger dazu
DE4218623C2 (de) Sprachsynthesizer

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

AK Designated contracting states

Kind code of ref document: A2

Designated state(s): AT DE FR GB NL

AX Request for extension of the european patent

Free format text: AL;LT;LV;MK;RO;SI

PUAL Search report despatched

Free format text: ORIGINAL CODE: 0009013

AK Designated contracting states

Kind code of ref document: A3

Designated state(s): AT BE CH DE DK ES FI FR GB GR IE IT LI LU MC NL PT SE

AX Request for extension of the european patent

Free format text: AL;LT;LV;MK;RO;SI

17P Request for examination filed

Effective date: 19990724

AKX Designation fees paid

Free format text: AT DE FR GB NL

RAP1 Party data changed (applicant data changed or rights of an application transferred)

Owner name: GRUNDIG AKTIENGESELLSCHAFT

RIC1 Information provided on ipc code assigned before grant

Free format text: 7G 10L 21/04 A

17Q First examination report despatched

Effective date: 20020925

GRAH Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOS IGRA

RIC1 Information provided on ipc code assigned before grant

Ipc: 7G 10L 21/04 A

RTI1 Title (correction)

Free format text: METHOD FOR MODIFYING SPEECH SPEED

RIC1 Information provided on ipc code assigned before grant

Ipc: 7G 10L 21/04 A

GRAS Grant fee paid

Free format text: ORIGINAL CODE: EPIDOSNIGR3

GRAA (expected) grant

Free format text: ORIGINAL CODE: 0009210

AK Designated contracting states

Kind code of ref document: B1

Designated state(s): AT DE FR GB NL

REG Reference to a national code

Ref country code: GB

Ref legal event code: FG4D

Free format text: NOT ENGLISH

GBT Gb: translation of ep patent filed (gb section 77(6)(a)/1977)

Effective date: 20031203

REF Corresponds to:

Ref document number: 59810302

Country of ref document: DE

Date of ref document: 20040115

Kind code of ref document: P

ET Fr: translation filed
PLBE No opposition filed within time limit

Free format text: ORIGINAL CODE: 0009261

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT

26N No opposition filed

Effective date: 20040906

REG Reference to a national code

Ref country code: GB

Ref legal event code: 732E

REG Reference to a national code

Ref country code: FR

Ref legal event code: TP

NLS Nl: assignments of ep-patents

Owner name: GRUNDIG MULTIMEDIA B.V.

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: AT

Payment date: 20090324

Year of fee payment: 12

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: NL

Payment date: 20090327

Year of fee payment: 12

REG Reference to a national code

Ref country code: NL

Ref legal event code: V1

Effective date: 20101001

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: AT

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20100312

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: NL

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20101001

REG Reference to a national code

Ref country code: FR

Ref legal event code: PLFP

Year of fee payment: 19

REG Reference to a national code

Ref country code: DE

Ref legal event code: R082

Ref document number: 59810302

Country of ref document: DE

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: GB

Payment date: 20160321

Year of fee payment: 19

Ref country code: FR

Payment date: 20160328

Year of fee payment: 19

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: DE

Payment date: 20160331

Year of fee payment: 19

REG Reference to a national code

Ref country code: DE

Ref legal event code: R119

Ref document number: 59810302

Country of ref document: DE

GBPC Gb: european patent ceased through non-payment of renewal fee

Effective date: 20170312

REG Reference to a national code

Ref country code: FR

Ref legal event code: ST

Effective date: 20171130

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: DE

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20171003

Ref country code: FR

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20170331

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: GB

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20170312