EP0865026B1 - Méthode pour la modification du débit de parole - Google Patents
Méthode pour la modification du débit de parole Download PDFInfo
- Publication number
- EP0865026B1 EP0865026B1 EP98104455A EP98104455A EP0865026B1 EP 0865026 B1 EP0865026 B1 EP 0865026B1 EP 98104455 A EP98104455 A EP 98104455A EP 98104455 A EP98104455 A EP 98104455A EP 0865026 B1 EP0865026 B1 EP 0865026B1
- Authority
- EP
- European Patent Office
- Prior art keywords
- section
- voice signal
- segments
- digitized
- segment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
Definitions
- the invention relates to a method for speed modification of Voice signals in the time domain, especially an efficient overlap add method.
- SOLA Synchronized OverLap-Add
- WSOLA Waveform Similarity OverLap - Add
- the object of the invention is to provide a method for speed modification of Specify voice signals in the time domain that works particularly efficiently.
- the version y (k) of a speech signal x (k) time-scaled by the factor ⁇ is generated according to the synthesis with a window function
- the specified w (k) definition ensures that the condition necessary for meaningful overlap add is satisfied.
- the shift variable ⁇ ⁇ contained in the above synthesis equation is to be determined from a "tolerance range" - ⁇ max , ..., ⁇ max for the purpose of the synchronization mentioned.
- the basic procedure is as follows: Apart from a synchronization-related “jitter”, segments of length L + N are taken from the original signal x (apart from a synchronization-related “jitter”) and, after weighting with w (k), are added by L sample values each offset.
- the signal y (k) obtained in this way is accelerated by a factor of ⁇ compared to x (k), that is to say that an utterance of K samples in the original signal x (k) length on this y (k) section by this procedure the length K / ⁇ is mapped, that is to say shortened and thus accelerated in the reproduction for ⁇ > 1, or lengthened, that is to say slowed down, if ⁇ ⁇ 1.
- the weighting of this section with the rising edge of the window is represented by multiplying this vector by a diagonal matrix V, by the values v (0), ... v (N-1) is occupied.
- the weighting of the ideal segment section x with the falling edge of the window is represented by multiplication by 1 - V, where 1 denotes the N ⁇ N unit matrix.
- Another approach to synchronization is to minimize the error between the synthesized signal y and the original signal x instead of maximizing the "waveform similarity".
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Time-Division Multiplex Systems (AREA)
- Analogue/Digital Conversion (AREA)
Claims (3)
- Procédé pour modifier la vitesse de signaux vocaux, notamment de signaux vocaux numérisés, selon lequelcaractérisé en ceun signal vocal analogique est numérisé, ce qui fait apparaítre un signal vocal numérisé qui est mémorisé dans une mémoire,un facteur α est défini, facteur avec lequel le signal vocal est allongé ou raccourci,une fonction fenêtre comportant une première section montante de longueur N, une seconde section constante de longueur L-N, qui se raccorde directement à la première section, une troisième section' retombante, qui se raccorde à la seconde section, est définie, auquel cas lors d'une superposition de la première section montante d'une fenêtre avec la troisième section retombante d'une autre fenêtre et lors d'une addition des deux sections dans la zone de chevauchement, on obtient le résultat un, qui correspond à la valeur de la seconde section de la fonction fenêtre,αL segments ayant une longueur définie L+N sont prélevés du signal vocal numérisé et mémorisé, à des intervalles irréguliers ayant une longueur moyenne,ces segments prélevés du signal numérisé et mémorisé sont pondérés avec la fonction fenêtre dans le domaine temporel,les segments pondérés sont additionnés en étant décalés respectivement d'un nombre défini de valeurs d'échantillonnage L, ce qui a pour effet que le signal vocal ainsi obtenu est raccourci pour α > 1 et est allongé pour α < 1,le segment prélevé dans le signal vocal numérisé, et pondéré avec la fonction fenêtre est comparé, et ce successivement aux emplacements du prélèvement des segments à partir du signal vocal numérisé, au segment prélevé ensuite, également pondéré avec la fonction fenêtre, selon des aspects de similitude,que pour la comparaison rapide de la similitude des segments, seule la troisième section du segment, qui possède une longueur de N valeurs et est pondérée par la section fenêtre retombante du segment est comparée à la section montante d'une longueur de N valeurs, qui est pondérée par la section fenêtre, du segment prélevé ensuite,que ces segments sont additionnés en étant décalés les uns par rapport aux autres de telle sorte que la similitude des sections de segments devienne maximale, etque pour le calcul de la similitude, on utilise une corrélation en tant que mesure de cette similitude.
- Procédé selon la revendication 1, caractérisé en ce quela similitude des deux sections comparées de segment devient maximale lorsqu'on rend maximum le degré de similitude par rapport au décalage réciproque des segments.
- Procédé pour modifier la vitesse de signaux vocaux, notamment de signaux vocaux numérisés, selon lequel un signal vocal analogique est numérisé, ce qui fait apparaítre un signal vocal numérisé qui est mémorisé dans une mémoire,caractérisé en ceun facteur α est défini, facteur avec lequel le signal vocal est allongé ou raccourci,une fonction fenêtre comportant une première section montante de longueur N, une seconde section constante de longueur L-N, qui se raccorde directement à la première section, et une troisième section retombante, qui se raccorde à la seconde section, est définie, auquel cas lors d'une superposition de la première section montante d'une fenêtre avec la troisième section retombante d'une autre fenêtre et lors d'une addition des deux sections dans la zone de chevauchement, on obtient le résultat un, qui correspond à la valeur de la seconde section de la fonction fenêtre,αL segments ayant une longueur définie L+N sont prélevés du signal vocal numérisé et mémorisé, à des intervalles irréguliers ayant une longueur moyenne,ces segments prélevés du signal numérisé et mémorisé sont pondérés avec la fonction fenêtre dans le domaine temporel,les segments pondérés sont additionnés en étant décalés respectivement d'un nombre défini de valeurs d'échantillonnage L, ce qui a pour effet que le signal vocal ainsi obtenu est raccourci pour α > 1 et est allongé pour α < 1,le segment prélevé dans le signal vocal numérisé, et pondéré avec la fonction fenêtre est comparé, et ce successivement aux emplacements de prélèvement des segments à partir du signal vocal numérisé, au segment du signal vocal allongé ou raccourci, qui représente ce segment prélevé,que pour la comparaison rapide de l'écart entre le signal vocal allongé ou le signal vocal raccourci par rapport au signal vocal numérisé, on utilise comme référence uniquement la troisième section, d'une grandeur de N valeurs, du signal prélevé en dernier,qu'on additionne les segments prélevés d'une manière décalée entre eux de telle sorte que l'écart déterminé est minimum, etqu'on utilise comme mesure de l'écart l'erreur relative ou l'erreur quadratique absolue.
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| DE19710545 | 1997-03-14 | ||
| DE19710545A DE19710545C1 (de) | 1997-03-14 | 1997-03-14 | Effizientes Verfahren zur Geschwindigkeitsmodifikation von Sprachsignalen |
Publications (3)
| Publication Number | Publication Date |
|---|---|
| EP0865026A2 EP0865026A2 (fr) | 1998-09-16 |
| EP0865026A3 EP0865026A3 (fr) | 1999-02-10 |
| EP0865026B1 true EP0865026B1 (fr) | 2003-12-03 |
Family
ID=7823336
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| EP98104455A Expired - Lifetime EP0865026B1 (fr) | 1997-03-14 | 1998-03-12 | Méthode pour la modification du débit de parole |
Country Status (3)
| Country | Link |
|---|---|
| EP (1) | EP0865026B1 (fr) |
| AT (1) | ATE255763T1 (fr) |
| DE (2) | DE19710545C1 (fr) |
Families Citing this family (10)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| GB9911737D0 (en) | 1999-05-21 | 1999-07-21 | Philips Electronics Nv | Audio signal time scale modification |
| US7711123B2 (en) | 2001-04-13 | 2010-05-04 | Dolby Laboratories Licensing Corporation | Segmenting audio signals into auditory events |
| US7610205B2 (en) | 2002-02-12 | 2009-10-27 | Dolby Laboratories Licensing Corporation | High quality time-scaling and pitch-scaling of audio signals |
| US7283954B2 (en) | 2001-04-13 | 2007-10-16 | Dolby Laboratories Licensing Corporation | Comparing audio using characterizations based on auditory events |
| US7461002B2 (en) | 2001-04-13 | 2008-12-02 | Dolby Laboratories Licensing Corporation | Method for time aligning audio signals using characterizations based on auditory events |
| WO2002093560A1 (fr) | 2001-05-10 | 2002-11-21 | Dolby Laboratories Licensing Corporation | Ameliorations apportees a la performance transitoire de systemes de codage audio a faible debit binaire par reduction du pre-bruit |
| DE10327057A1 (de) * | 2003-06-16 | 2005-01-20 | Siemens Ag | Vorrichtung zum zeitlichen Stauchen oder Strecken, Verfahren und Folge von Abtastwerten |
| DE102004053093B4 (de) | 2004-11-03 | 2006-08-17 | Siemens Ag | Verfahren zur Ausgabe eines Nutzdatenstroms und Kommunikationsendgerät zum Empfang und zur Ausgabe eines Nutzdatenstroms |
| JP2010017216A (ja) | 2008-07-08 | 2010-01-28 | Ge Medical Systems Global Technology Co Llc | 音声データ処理装置,音声データ処理方法、および、イメージング装置 |
| CN102855884B (zh) * | 2012-09-11 | 2014-08-13 | 中国人民解放军理工大学 | 基于短时连续非负矩阵分解的语音时长调整方法 |
Family Cites Families (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| EP0427953B1 (fr) * | 1989-10-06 | 1996-01-17 | Matsushita Electric Industrial Co., Ltd. | Appareil et méthode pour la modification du débit de parole |
| US5630013A (en) * | 1993-01-25 | 1997-05-13 | Matsushita Electric Industrial Co., Ltd. | Method of and apparatus for performing time-scale modification of speech signals |
| US5694521A (en) * | 1995-01-11 | 1997-12-02 | Rockwell International Corporation | Variable speed playback system |
-
1997
- 1997-03-14 DE DE19710545A patent/DE19710545C1/de not_active Expired - Fee Related
-
1998
- 1998-03-12 AT AT98104455T patent/ATE255763T1/de not_active IP Right Cessation
- 1998-03-12 DE DE59810302T patent/DE59810302D1/de not_active Expired - Lifetime
- 1998-03-12 EP EP98104455A patent/EP0865026B1/fr not_active Expired - Lifetime
Also Published As
| Publication number | Publication date |
|---|---|
| ATE255763T1 (de) | 2003-12-15 |
| EP0865026A3 (fr) | 1999-02-10 |
| DE19710545C1 (de) | 1997-12-04 |
| DE59810302D1 (de) | 2004-01-15 |
| EP0865026A2 (fr) | 1998-09-16 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| DE69428612T2 (de) | Verfahren und Vorrichtung zur Durchführung einer Zeitskalenmodifikation von Sprachsignalen | |
| DE68919637T2 (de) | Verfahren und Einrichtung zur Sprachsynthese durch Überdeckung und Summierung von Wellenformen. | |
| DE69230324T2 (de) | Verfahren zur Zeitskalenmodifikation von Signalen | |
| DE60127274T2 (de) | Schnelle wellenformsynchronisation für die verkettung und zeitskalenmodifikation von sprachsignalen | |
| DE60305716T2 (de) | Verfahren zum synthetisieren eines nicht stimmhaften sprachsignals | |
| DE60214358T2 (de) | Zeitskalenmodifikation von signalen mit spezifischem verfahren je nach ermitteltem signaltyp | |
| DE69121312T2 (de) | Geräuschsignalvorhersagevorrichtung | |
| Verhelst | Overlap-add methods for time-scaling of speech | |
| DE69024919T2 (de) | Einrichtung und Methode zur Veränderung von Sprechgeschwindigkeit | |
| DE69926462T2 (de) | Bestimmung des von einer phasenänderung herrührenden rauschanteils für die audiokodierung | |
| DE69932786T2 (de) | Tonhöhenerkennung | |
| DE69613646T2 (de) | Verfahren zur Sprachdetektion bei starken Umgebungsgeräuschen | |
| DE2659096C2 (fr) | ||
| EP0865026B1 (fr) | Méthode pour la modification du débit de parole | |
| DE69612958T2 (de) | Verfahren und vorrichtung zur resynthetisierung eines sprachsignals | |
| DE69720861T2 (de) | Verfahren zur Tonsynthese | |
| DE19859174C1 (de) | Verfahren und Vorrichtung zur Verarbeitung rauschbehafteter Schallsignale | |
| DE60031812T2 (de) | Vorrichtung und Verfahren zur Klangsynthesierung | |
| DE69824613T2 (de) | Ein system und verfahren zur prosodyanpassung | |
| DE69421704T2 (de) | Verfahren und vorrichtung zum testen einer fernmeldeanlage unter verwendung eines testsignals mit verminderter redundanz | |
| DE69717377T2 (de) | Sprachgeschwindigkeitsumwandler | |
| DE102004028694B3 (de) | Vorrichtung und Verfahren zum Umsetzen eines Informationssignals in eine Spektraldarstellung mit variabler Auflösung | |
| DE3228757A1 (de) | Verfahren und vorrichtung zur zeitabhaengigen komprimierung und synthese von hoerbaren signalen | |
| DE69723930T2 (de) | Verfahren und Vorrichtung zur Sprachsynthese und Programm enthaltender Datenträger dazu | |
| DE4218623C2 (de) | Sprachsynthesizer |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PUAI | Public reference made under article 153(3) epc to a published international application that has entered the european phase |
Free format text: ORIGINAL CODE: 0009012 |
|
| AK | Designated contracting states |
Kind code of ref document: A2 Designated state(s): AT DE FR GB NL |
|
| AX | Request for extension of the european patent |
Free format text: AL;LT;LV;MK;RO;SI |
|
| PUAL | Search report despatched |
Free format text: ORIGINAL CODE: 0009013 |
|
| AK | Designated contracting states |
Kind code of ref document: A3 Designated state(s): AT BE CH DE DK ES FI FR GB GR IE IT LI LU MC NL PT SE |
|
| AX | Request for extension of the european patent |
Free format text: AL;LT;LV;MK;RO;SI |
|
| 17P | Request for examination filed |
Effective date: 19990724 |
|
| AKX | Designation fees paid |
Free format text: AT DE FR GB NL |
|
| RAP1 | Party data changed (applicant data changed or rights of an application transferred) |
Owner name: GRUNDIG AKTIENGESELLSCHAFT |
|
| RIC1 | Information provided on ipc code assigned before grant |
Free format text: 7G 10L 21/04 A |
|
| 17Q | First examination report despatched |
Effective date: 20020925 |
|
| GRAH | Despatch of communication of intention to grant a patent |
Free format text: ORIGINAL CODE: EPIDOS IGRA |
|
| RIC1 | Information provided on ipc code assigned before grant |
Ipc: 7G 10L 21/04 A |
|
| RTI1 | Title (correction) |
Free format text: METHOD FOR MODIFYING SPEECH SPEED |
|
| RIC1 | Information provided on ipc code assigned before grant |
Ipc: 7G 10L 21/04 A |
|
| GRAS | Grant fee paid |
Free format text: ORIGINAL CODE: EPIDOSNIGR3 |
|
| GRAA | (expected) grant |
Free format text: ORIGINAL CODE: 0009210 |
|
| AK | Designated contracting states |
Kind code of ref document: B1 Designated state(s): AT DE FR GB NL |
|
| REG | Reference to a national code |
Ref country code: GB Ref legal event code: FG4D Free format text: NOT ENGLISH |
|
| GBT | Gb: translation of ep patent filed (gb section 77(6)(a)/1977) |
Effective date: 20031203 |
|
| REF | Corresponds to: |
Ref document number: 59810302 Country of ref document: DE Date of ref document: 20040115 Kind code of ref document: P |
|
| ET | Fr: translation filed | ||
| PLBE | No opposition filed within time limit |
Free format text: ORIGINAL CODE: 0009261 |
|
| STAA | Information on the status of an ep patent application or granted ep patent |
Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT |
|
| 26N | No opposition filed |
Effective date: 20040906 |
|
| REG | Reference to a national code |
Ref country code: GB Ref legal event code: 732E |
|
| REG | Reference to a national code |
Ref country code: FR Ref legal event code: TP |
|
| NLS | Nl: assignments of ep-patents |
Owner name: GRUNDIG MULTIMEDIA B.V. |
|
| PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] |
Ref country code: AT Payment date: 20090324 Year of fee payment: 12 |
|
| PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] |
Ref country code: NL Payment date: 20090327 Year of fee payment: 12 |
|
| REG | Reference to a national code |
Ref country code: NL Ref legal event code: V1 Effective date: 20101001 |
|
| PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: AT Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20100312 |
|
| PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: NL Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20101001 |
|
| REG | Reference to a national code |
Ref country code: FR Ref legal event code: PLFP Year of fee payment: 19 |
|
| REG | Reference to a national code |
Ref country code: DE Ref legal event code: R082 Ref document number: 59810302 Country of ref document: DE |
|
| PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] |
Ref country code: GB Payment date: 20160321 Year of fee payment: 19 Ref country code: FR Payment date: 20160328 Year of fee payment: 19 |
|
| PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] |
Ref country code: DE Payment date: 20160331 Year of fee payment: 19 |
|
| REG | Reference to a national code |
Ref country code: DE Ref legal event code: R119 Ref document number: 59810302 Country of ref document: DE |
|
| GBPC | Gb: european patent ceased through non-payment of renewal fee |
Effective date: 20170312 |
|
| REG | Reference to a national code |
Ref country code: FR Ref legal event code: ST Effective date: 20171130 |
|
| PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: DE Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20171003 Ref country code: FR Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20170331 |
|
| PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: GB Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20170312 |