DE2650101C2 - Verfahren zur Sprachsynthese nach dem Formantvocoderprinzip - Google Patents

Verfahren zur Sprachsynthese nach dem Formantvocoderprinzip

Info

Publication number
DE2650101C2
DE2650101C2 DE19762650101 DE2650101A DE2650101C2 DE 2650101 C2 DE2650101 C2 DE 2650101C2 DE 19762650101 DE19762650101 DE 19762650101 DE 2650101 A DE2650101 A DE 2650101A DE 2650101 C2 DE2650101 C2 DE 2650101C2
Authority
DE
Germany
Prior art keywords
frequency
formant
sounds
noise signal
samples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
DE19762650101
Other languages
English (en)
Other versions
DE2650101A1 (de
Inventor
Herbert Dipl.-Ing. 6100 Darmstadt Wolf
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dornier System GmbH
Siemens AG
Alcatel Lucent Deutschland AG
Original Assignee
Dornier System GmbH
Siemens AG
Standard Elektrik Lorenz AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dornier System GmbH, Siemens AG, Standard Elektrik Lorenz AG filed Critical Dornier System GmbH
Priority to DE19762650101 priority Critical patent/DE2650101C2/de
Publication of DE2650101A1 publication Critical patent/DE2650101A1/de
Application granted granted Critical
Publication of DE2650101C2 publication Critical patent/DE2650101C2/de
Expired legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrophonic Musical Instruments (AREA)

Description

B =
erhöht wird und im Falle m>n das überlaufende Bit unberücksichtigt bleibt.
6. Verfahren nach Anspruch 1 und 2, dadurch gekennzeichnet, daß für die Erzeugung stimmhafter Laute beim Auftreten eines Pitchimpulses abhängig vom momentanen Wert der abklingenden Sinusschwingung ein Startwert Ss, erzeugt wird, der bewirkt, daß die nach Auftreten des Pitchimpulses neu beginnende abklingende Sinusschwingung derart in ihrer Phasenlage verschoben wird, daß zwischen der vorhergehenden und der neuen Sinusschwingung kein Amplitudensprung auftritt.
7. Verfahren nach Anspruch 1 bis 6, dadurch gekennzeichnet, daß für die Synthese von Sprachsignalen, die einem oder mehreren voneinander unabhängigen Sprachkanälen zugeordnet sind, jeweils nur eine Vorrichtung zur Erzeugung der Sinusschwingung (5.1, 5.2, 5.4 bzw. 9.1, 9.2, 9.4), der abklingenden Exponentialfunktion (5.5), des Rauschsignals (9.5), der Verknüpfung von Exponentialfunktion und Sinusschwingung (5.6) bzw. Rauschsignal (9.6) und Sinusschwingung, zur Phasenkorrektur (5.10), zur anschließenden Verknüpfung (5.7 bzw. 9.7) mit der Formantamplitude und ggf. zur Delogarithmierung (5.8 bzw. 9.8) und Summierung der so erzeugten Sprachteilsignale vorgesehen ist und die Anordnung im zeitlichen Multiplex derart betrieben wird, daß die zu einem Sprachkanal gehörenden Teilsprachsignale in direkter zeitlicher Reihenfolge aufeinanderfolgend erzeugt und am Ausgang fortlaufend aufsummiert werden.
Die Erfindung bezieht sich auf ein Verfahren zur Sprachsynthese nach dem Formantvocoderprinzip, bei dem für den Aufbau der stimmhaften Laute gedämpfte Sinusschwingungen verschiedener Frequenz und zur Erzeugung stimmloser Laute ein Rauschsignal verwendet werden und bei dem beide Lauttypen innerhalb derselben Einrichtung einer amplitudenmäßigen Bewertung entsprechend den Formantamplituden unterworfen werden.
Eine ähnliche Anordnung dieser Art ist in der deutschen Auslegeschrift 18 11 040 beschrieben. Diese bekannte Anordnung zum Synthetisieren von Sprach-Signalen besitzt zwei Hauptbestandteile. Der eine daven ist ein Speicher, in dem als Grundbausteine für den Aufbau der stimmhaften Laute gedämpfte Sinusschwingungen verschiedener Frequenz und weitere akustische
Grundbausteine für den Aufbau stimmloser Laute enthalten sind, die in Verbindung miteinander die zu synthetisierenden Sprachsignale liefern. Den zweiten Hauptbestandteil der bekannten Anordnung bildet eine Steuerschaltung, die für jeden zu erzeugenden stimmhaften Laut die mehrfache Abfrage der Sinusschwingung entsprechend der Formantfrequenz mit konstanter, der Pitchfrequenz der zu synthetisierenden Sprachsignale entsprechender Folgefrequenz und quadratisch mit der Formantfrequenz abnehmender Amplitude veranlaßt.
Die bekannte Anordnung enthält dabei für den Aufbau der stimmhaften Laute eine große Anzahl in Form gedämpfter Sinusschwingungen verschiedener Frequenz abgespeicherter Grundbausteine und zur Erzeugung stimmloser Laute die entsprechenden Phoneme gespeichert, woraus sich naturgemäß ein sehr großer Bedarf an Speicherplätzen ergibt. Außerdem ist es mit dieser Anordnung nicht oder nur mit einem erheblichen Mehraufwand an Speicherplätzen möglich, die Formantbandbreite unabhängig von der Formantfrequenz zu steuern.
In der Zeitschrift »IEEE Transactions on Audio and Elektroacoustics« vom Juni 1973, auf den Seiten 298 bis 305, ist weiterhin ein Verfahren beschrieben, das ebenfalls auf dem Formantvocoderprinzip beruht und das im wesentlichen mittels einer parallelen Anordnung von steuerbaren Filtern Sprachsignale synthetisieren kann. Die Filter können dabei sowohl von einem periodischen pulsförmigen Signal zur Erzeugung stimmhafter Laute, als auch Von einem rauschartigen Signal zur Erzeugung stimmloser Laute angeregt werden. Die einzelnen gefilterten Sipnale werden zur Bildung des vollständigen Sprachsignals aufsummiert. Das Problem bei der Realisierung einer derartigen Einrichtung liegt darin, steuerbare Filter mit hinreichender Genauigkeit und Wirtschaftlich vertretbarem Aufwand aufzubauen.
Der Erfindung liegt die Aufgabe zugrunde, ein nach dem Grundprinzip des Formantvocoders arbeitendes Verfahren mit der diesem Verfahren eigenen hohen Sprachqualität so zu gestalten, daß die für seine Durchführung erforderliche Schaltungsanordnung sich mit einem minimalen Aufwand an Bauelementen realisieren läßt.
Diese Aufgabe wird ausgehend von einem Verfahren zur Sprachsynthese der einleitend beschriebenen Art gemäß der Erfindung dadurch gelöst, daß innerhalb der Anordnung eine oder mehrere, in ihrer Frequenz steuerbare, den Formantfrequenzen entsprechende Sinusschwingungen erzeugt werden und diese entweder
a) zum Aufbau stimmhafter Laute im Rhythmus einer der Pitchfrequenz des zu synthetisierenden Sprachsignals entsprechenden Pitchimpulsfolge mit einer abklingenden Exponentialfunktion zur Erzeugung einer der Pitchimpulsfolge entsprechenden Folge von exponentiell abklingenden Sinusschwingungen oder
b) zum Aufbau stimmloser Laute mit einem tiefpaßgefilterten weißen Rauschsignal zur Erzeugung eines durch die Sinusschwingung amplitudenmodulierten Rauschsigrials verknüpft werden.
Das Grundprinzip der Erfindung beruht darauf, daß durch Verknüpfung zweier bekannter Verfahren, nämlich der Erzeugung stimmhafter Laute durch die Verwendung exponentiell abklingender Sinusschwingungen einerseits und der Erzeugung stimmloser Laute durch Modulieren eines tiefpaßgefilterten Rauschsignals mit einer variablen Trägerfrequenz andererseits und durch Verwendung im wesentlichen nur einer gemeinsamen Einrichtung zur Durchführung beider V Verfahren auf einfache Weise Sprachsignale hoher Qualität erzeugt werden können.
Darüber hinaus kann der Aufwand für die Realisierung einer derartigen Einrichtung dadurch sehr gering gehalten werden, daß zum einen eine spezielle Art der
ίο Erzeugung abklingender Sinusschwingungen und tiefpaßgefilterter Rauschsignale veränderlicher Bandbreite angewandt wird, zum zweiten durch besondere Codierung der hauptsächlichen Signale alle erforderlichen Rechenoperationen auf einfache Addition zurückgeführt werden sowie die abklingende Exponentialfunktion zur einfachen linearen Rampenfunktion wird und zum dritten infolge der besonderen Aneinanderreihung aller Funktionseinheiten ein Betreiben der gesamten Anordnung im zeitlichen Multiplex unter Anwendung der sogenannten »Pipeline«-Technik derart begünstigt wird, daß damit die gleichzeitige Synthese mehrerer unabhängiger Sprachsignale ermöglicht wird.
Zur Erläuterung der Einzelheiten der Erfindung wird in der folgenden Beschreibung auf die Figuren Bezug genommen. Es zeigen
Fig. la und Ib Darstellung typischer Frequenzspektren eines stimmhaften und eines stimmlosen Lautes,
F i g. 2 Blockschaltbild einer Sprachsyntheseeinrichtung nach dem Formantvocoderprinzip mit paralleler
jo Filterstruktur nach dem Stande der Technik,
F i g. 3b die Amplitude der Übertragungsfunktion und 3c die Impülsantwort einer Schwingkreisschaltung für ein steuerbares Filter nach F i g. 3a,
F i g. 4 zeitlicher Zusammenhang zwischen stimmhaften Anregungsimpulsen und Ausgangssignal eines Filters nach F i g. 3a,
F i g. 5 Blockschaltbild einer Einrichtung zur Erzeugung von Signalen für den Aufbau von stimmhaften Lauter) nach dem Verfahren der Erfindung,
F i g. 6 graphische Darstellung der in der Sinusliste abgespeicherten Funktion,
Fig. 7 graphische Darstellung der logarithmierten und negierten abklingenden Exponentenfunktion in Form einer Rampe,
F i g. 8 Übergang zwischen einer weitgehend abgeklungenen Sinusschwingung und einer neu beginnenden Sinusschwingung mit der zur Vermeidung des Phasensprunges vorgenommenen Phasenverschiebung (gestrichelte Linie),
F i g. 9 Blockschaltbild einer Einrichtung zur Erzeugung von Signalen für den Aufbau von stimmlosen Lauten nach dem Verfahren der Erfindung,
Fig. 10 spektrale Darstellung des angewandten Modulationsprinzips zur Erzeugung stimmloser Laute.
Im menschlichen Stimmbildungssystem werden stimmhafte Laute dadurch erzeugt, daß ein von der Lunge kommender Luftstrom durch die Vibration der Simmlippen im Rhythmus der Sprachgrundfrequenz zerhackt wird und anschließend den zwischen Stimmlippen und Mundöffnung liegenden Vokaltrakt passiert. Die rauschähnlichen stimmlosen Laute entstehen, wenn dieser Luftstrom ungehindert die weit geöffneten Stimmlippen passieren kann, aber an einer Verengung im Vokaltrakt turbulent verwirbelt wird. Der Vokaltrakt besteht aus einer Reihe wie Resonanzfilter wirkender Hohlräume, die durch artikularotische Bewegungen verändert werden können und nur die für die jeweiligen Laute charakteristischen Frequenzbereiche hervorhe-
In Fig. la sind die typischen Frequenzspektren eines stimmhaften Lautes und in F i g. Ib die eines stimmlosen Lautes schematisch dargestellt. Charakteristisch für den stimmhaften Laut sind in Fig. 1a die mit 1.1 bezeichneten Spektrallinien, die durch die Sprachgrundfrequenz und deren Oberwellen gebildet werden. Die Einhüllende 1.2 dieser Spektrallinien zeigt ausgeprägte lokale Maxima 1.3, 1.4 und 1.5, die sogenannten Formanten. Jedem unterscheidbaren stimmhaften Laut ist eine bestimmte Kombination von Formanten verschiedener Mittenfrequenzen und Intensitäten zugeordnet. Im Gegensatz dazu besitzt der stimmlose Laut nach Fig. Ib ein typisches Rauschspektrum 1.6, dessen Hüllkurve 1.7 aber ebenfalls lokale Maxima 1.8 und 1.9 erkennen läßt.
Eine bekannte Einrichtung, mit der sich auf elektronischem Wege derartige Sprachsignale erzeugen lassen, ist der Sprachsynthetisator nach dem Formantvocoderprinzip. In Fig. 2 ist das Blockschaltbild einer möglichen Ausführung eines solchen Synthetisators dargestellt.
Dieser Synthetisator besteht im wesentlichen aus η parallel angeordneten, in ihrer Mittenfrequenz Fu Fv, Fn und ihrer Bandbreite B\, Bx,, Bn steuerbaren Bandpaßfiltern (2.4). Im folgenden wird nur der mittlere Zweig der Schaltung mit dem Filter ν betrachtet.
Zum Synthetisieren stimmhafter Lautanteile wird, gesteuert durch die Steuergröße Z„, die Schaltungsanordnung 2.3,, so eingestellt, daß die von der Pitchquelle 2.1 erzeugte Impulsfolge an den Filtereingang des Filters ν gelangt.
Die Sprachgrundfrequenz f0, mit der diese Lautanteile synthetisiert werden, ist dabei durch die Folgefrequenz dieser Impulsfolge gegeben.
Stimmlose Lautanteile entstehen, wenn über die Schaltanordnung 2.3„ das von der Rauschquelle 2.2 generierte weiße Rauschsignal den Filtereingang erreicht.
Die Bandpaßfilter werden, abhängig vom gewünschten Laut, auf die jeweiligen Formantmittenfrequenzen eingestellt. Dabei genügt es im allgemeinen, die ersten drei Formanten zu berücksichtigen, um die wichtigsten Laute zu charakterisieren. Mit zwei bis drei zusätzlichen Formanten kann die Natürlichkeit der einzelnen synthetisch erzeugten Laute aber noch wesentlich erhöht werden.
Die Ausgangssignale der Filter werden in jedem Filterzweig separat in den Multiplizierern 2.5i... 2.5„ mit den Koeffizienten Av bzw. V1, amplitudenmäßig bewertet. Dabei stellt A1, den Betrag und Vr das Vorzeichen des jeweiligen Koeffizienten dar. Schließlich werden die so erzeugten Signale der. einzelnen Filterzweige in einer Summierstufe 2.7 zusammengefaßt und ergeben damit am Ausgang das synthetisierte Sprachsignal, das durchnachgeschaltete Verstärker und einen elektroakustischen Wandler (z. B. Lautsprecher) 2.8 auch hörbar gemacht werden kann.
Die steuerbaren Bandpaßfilter können vorzugsweise aus einer Schwingkreisschaltung RLC der in Fig.3a angegebenen Art bestehen. Der Verlauf des Betrages der Übertragungsfunktion einer solchen Schaltung und die beiden charakteristischen Kenngrößen Resonanzmittenfrequenz F und Bandbreite B sind in Fig.3b dargestellt. Schließlich zeigt F i g. 3c die Impulsantwort Ui eines derartigen Filters, die sich als Produkt einer abklingenden e-Funktion e-^s, mit einer Sinusschwingung sind 2TrFf darstellt. Der Dämpfungsfaktor der e-Funktion ist dabei proportional der Filterbandbreite B, die Frequenz der Sinusschwingung entspricht der Resonanzfrequenz Fdes Schwingkreises.
Geht man davon aus, daß, wie im Falle der stimmhaften Anregung der Filter zur Erzeugung stimmhafter Lautanteile, die Filter mit einer Folge von Impulsen angeregt werden, so ist leicht ersichtlich, daß dann das Ausgangssignal aus einer Folge von abklingenden Sinusschwingungen der in F i g. 3c dargestellten Art
ίο besteht. In Fig.4 ist der zeitliche Zusammenhang zwischen den im Abstand T= 1//Ό (Zo Sprachgrundfrequenz) auftretenden Eingangsimpulsen und dem Ausgangssignal aufgezeigt.
Eine Einrichtung zur Erzeugung derartiger Ausgangssignale nach dem Verfahren der Erfindung für den Aufbau stimmhafter Laute ohne Verwendung von bisher nur sehr kostspielig realisierbaren steuerbaren Filtern zeigt F i g. 5. Im wesentlichen wird mittels der Einrichtung 5.1 bis 5.4 eine, in besonderer logarithmischer Form dargestellte Sinusschwingung veränderlicher Frequenz F erzeugt und anschließend in einem Addierer 5.6 mit einer in 5.5 generierten, ebenfalls in einer besonderen logarithsmischen Form dargestellten, abklingenden Exponentialfunktion derart verknüpft, daß am Ausgang dieses Addierers eine wiederum logarithmisch dargestellte abklingende Sinusschwingung entsteht. Dieses Signal wird in dem anschließenden Addierer 5.7 mit der logarithmierten Amplitude A bewertet und durchläuft schließlich eine Delogarithmiereinheit 5.8, so daß es am Ausgang eine Form annimmt, wie sie in F i g. 3c dargestellt ist.
Die Erzeugung der Sinusschwingung geht im einzelnen wie folgt vor sich:
In einem digitalen Speiche-baustein (5.4) ist die positive Halbwelle einer Sinusfunktion mit z. B. /j/2 = 2a-' äquidistanten diskreten Abtastwerten in Form ihrer negativen Logarithmen zur Basis 2 mit 4 Jßit Exponent und 4 Bit Mantisse abgespeichert (siehe Fig.6).
Die Adressierung dieses Speichers erfolgt über eine a-l = 10 Bits breite Adreßleitung (5.3), die von den niederwertigeren Bits eines a = 11 Bits breiten Addierers gespeist wird. Wird nun diese Adresse im Takte einer Abtastfrequenz von z.B. /,,6, = 8kHz jeweils um eine Schrittweite von k Adreßschritten dadurch erhöht, daß bei jedem Takt zu dem im Register 5.2 zwischengespeicherten Adreßwert des vorhergehenden Taktes die Steuergröße k addiert wird, so entstehen am Ausgang des Speicherbausteines 5.4 die Abtastwerte einer betragsmäßig logarithmierten und negierten Sinusschwingung der Frequenz
F =
abt
Das Vorzeichen des jeweiligen Abtastwertes bestimmt sich aus dem Wert des hochwertigsten, nicht mehr zur Adresse des Speicherbausteines gehörenden Bits des Addiererausganges, wobei 0 positive und 1 negative Werte anzeigt. Übersteigt der Wert am Addiererausgang 2"-\ so entsteht ein Überlauf, der aber unberücksichtigt bleibt, so daß sich die Adreßzählung entsprechend der Periodizität der zu erzeugenden Sinusschwingung zyklisch wiederholt. Die wesentlichen Vorteile der hier gewählten negativen logartihmischen Darstellung der Signale bestehen einmal darin, daß die erforderlichen multiplikativen Signalverknüpfungen zwischen der abklingenden Exponentialfunktion e--*r,
der Sinusschwingung sin 2nFkTund der Formantatnplitude A zu einfachen Additionen werden, zum anderen wird die logarithmierte und negierte Exponentialfunktion selbst zur einfachen linearen Rampenfunktion (siehe F i g. 7), deren Steigung direkt der gewünschten Formantbandbreite proportional zu wählen ist. Diese Rampenfunktion läßt sich sehr leicht durch z. B. laufende Aufaddierung einer konstanten Größe erzeugen, die im Beispiel = 1 für eine Formantbandbreite von ca. 50 Hz und = 3 für eine Formantbandbreite von ca. 150 Hz ist. Treten bei den Additionen der Logarithmen Überläufe auf, so wird auf die größte, mit 8 Bits darstellbare Zahl, nämlich 255 begrenzt. Bei der Delogarithmierung über die Delogarithmierliste 5.8 wird dieser Zahl der Wert 0 zugeordnet.
Fig.4 zeigt, wie mit jedem der im Abstand T=Mf0 (fo = Sprachgrundfrequenz) auftretenden Impulse der stimmhaften Anregung eine neue exponential abklingende Sinusschwingung beginnt. Entsprechend muß in der Einrichtung nach Fig.5 zum Zeitpunkt des Auftretens eines solchen Pitchimpulses zum einen die Adresse der Sinusliste auf einen bestimmten Startadreßwert voreingestellt werden und zum anderen die Rampenfunktion wieder auf Null zurückgesetzt werden.
F i g. 8 läßt den exakten Verlauf des Ausgangssignals des Addierers 5.6 in F i g. 5 negierter und delogarithmierter Darstellung erkennen. Es ist deutlich zu sehen, daß immer dann, wenn die Sinusschwingungen innerhalb einer Sprachgrundfrequenzperiode nicht vollständig abgeklungen ist, und das ist der Regelfall für die schmalbandigen Formanten, und wenn die Formantmit; tenfrequenz F nicht, ein ganzzahliges Vielfaches der halben Sprachgrundfreauenz Z0 ist, Phasensprünge zu den Zeitpunkten des Pitchimpulses auftreten, die sich akustisch als Störgeräusche bemerkbar machen.
Deshalb ist in Weiterbildung der Erfindung eine Korrektureinrichtung vorgesehen, die zum Zeitpunkt des Pitchimpulses, abhängig von der momentanen Amplitude der abklingenden Schwingung, einen Startadreßwert zur Voreinstellung der Adresse der Sinusliste 5.4 in F i g. 5 derart erzeugt, daß die neue Schwingung eine positive oder negative Phasenverschiebung in genau dem Maße erfährt, das erforderlich ist, um an der Übergangsstelle einen Sprung zu vermeiden (siehe gestrichelte Linie in F i g. 8).
Diese Korrektureinrichtung kann z. B. so realisiert werden, daß das Ausgangssignal von Addierer 5.6 in F i g. 5 als Maß für den Betrag und das hochwertigste Bit von Addierer 5.1 als Vorzeichen der abklingenden Sinusschwingung zur Adressierung einer in einem digitalen Speicherbaustein abgespeicherten Korrekturliste 5.10 verwendet wird, wobei diese Korrekturliste derart beschaffen ist, daß unter der jeweiligen Adresse immer der entsprechende, die Phasenverschiebung verursachende, Startadreßwert für die Sinusliste ausgelesen und damit die Adresse der Sinusliste voreingestellt werden kann. Nach Abschluß aller Signalverknüpfungen wird das so entstandene Signal, welches in negativ logarithmischer Form das Ausgangssignal eines Parallelzweiges des Formantsynthetisators nach F i g. 2 darstellt, delogarithmiert. Unter anderem eignet sich dazu eine in einem digitalen Speicherbaustein (5.8) abgespeicherten Delogarithmiertabelle. Dabei ergeben das mit 8 Bits logarithmierte Signal und ein Vorzeichenbit die Adresse, und die mit 12 Bits einschließlich Vorzeichen abgespeicherten Werte das Ausgangssignal.
Das Vorzeichenbit der Adresse ist dabei aus dem hochwertigsten Bit am Ausgang von Addierer 5.1, welches das Vorzeichen der Sinusschwingung repräsentiert, und dem Vorzeichenbit des in Vorzeichen und logarithmiertem Betrag dargestellten Formantamplitudenwertes A, derart zu bilden, daß diese beiden binären Zeichen per »exclusiv-oder« verknüpft werden.
Eine Einrichtung zur erfindungsgemäßen Erzeugung von rauschähnlichen Signalen für den Aufbau stimmloser Laute, die solchen Signalen, weiche sich durch Filterung einer Rauschquelie, entsprechend F i g. 2, erzeugen lassen, äquivalent sind, zeigt F i g. 9.
Das dabei angewandte Grundprinzip verdeutlicht Fig. 10. Ein mit einer Grenzfrequenz von B/2 gleich z. B. 75 Hz tiefpaßgefiltertes weißes Rauschsignal mit einem spektralen Verlauf vergleichbar 10.1 wird durch Multiplikation mit einer Sinusschwingung veränderlicher Frequenz amplitudenmoduliert. Die Spektren dieser Trägerfrequenz F(10.2) und des dabei entstehenden Signals mit oberem (10.3) und unterem (10.4) Seitenband sind ebenfalls in F i g. 10 eingezeichnet. Wie Fig.9 zeigt, läßt sich diese Modulation einschließlich einer anschließenden Bewertung mit einem Amplitudenfaktor A ebenfalls mit der schon für die Erzeugung stimmhafter Laute in F i g. 5 dargestellten Vorrichtung erzeugen, wenn an Stelle der Rampenfunktion (5.5) als einer der Summanden Abtastwerte eines tiefpaßgefilterten, logarithmierten und negierten Rauschsignals dem Addierer 5.6 zugeführt werden. Dieses Rauschsignal kann z. B. dadurch erzeugt werden, daß, vergleichbar der Erzeugung der Sinusschwingung, ein mit einer geringsten Grenzfrequenz von z.B. fgmi„ = 25 Hz tiefpaßgefiltertes Rauschsignal mit der Abtastfrequenz fub, abgetastet, digitalisiert, logarithmiert, negiert und in einem digitalen Speicherbaustein abgespeichert wird. Ein Rauschsignal einer gewünschten Grenzfrequenz k ■ fgmin, die in beliebiges Ganzzahliges von 25 Hz beträgt, entsteht dann, wenn nacheinander nur jeder /c-te Wert aus dem Speicher ausgelassen wird. Es genügt zur Erzeugung natürlich klingender Sprache, wenn insgesamt nur ein Bruchteil einer Sekunde des Rauschsignals in oben beschriebener Weise abgespeichert und zyklisch wiederholend ausgelesen wird. Damit sich die Periodendauer dieses Rauschsignals auch bei den höheren Grenzfrequenzen nicht verringert, ist es zweckmäßig, als Anzahl der abgespeicherten Abtastwerte eine Primzahl zu wählen.
Um das vollständige Sprachsignal zu erhalten, müssen, wie Fig. 2 zeigt, alle Teilsprachsignale der einzelnen Filterzweige aufsummiert werden. Diese Summierung läßt sich besonders dann sehr einfach gestalten, wenn eine solche Einrichtung nach F i g. 5 und 9 für die E.-zeugung aller Teilsignale im zeitlichen Multiplex betrieben wird. In diesem Fall ist es nur erforderlich, die η zeitlich aufeinanderfolgenden Teilsignale am Ausgang der Delogarithmierliste aufzuaddieren, wobei dann der nach η Additionen erhaltene Summenwert das vollständige Sprachsignal repräsentiert
Zur akustischen Wiedergabe muß dieses digitale Sprachsignal noch mittels Digital-Analog-Wandler in ein analoges Signal überführt werden und kann dann nach Tiefpaßbegrenzung auf die halbe Abtastfrequenz fabt/2 und Verstärkung einem Lautsprecher zugeführt werden.
Hierzu 8 Blatt Zeichnungen

Claims (5)

Patentansprüche:
1. Verfahren zur Sprachsynthese nach dem Formantvocoderprinzip, bei dem für den Aufbau der stimmhaften Laute gedämpfte Sinusschwingungen verschiedener Frequenz und zur Erzeugung stimmloser Laute ein Rauschsignal verwendet werden und bei dem beide Lauttypen innerhalb derselben Einrichtung einer amplitudenmäßigen Bewertung entsprechend den Formantamplituden unterworfen werden, dadurch gekennzeichnet, daß innerhalb der Anordnung eine oder mehrere, in ihrer Frequenz steuerbare, den Formantfrequenzen entsprechende Sinusschwingungen (5.1, 5.2, 5.4 bzw. 9.1,9.2,9.4) erzeugt werden und diese entweder
a) zum Aufbau stimmhafter Laute im Rhythmus einer der Pitchfrequenz des zu nynthetisierenden Sprachsignals entsprechenden Pitchimpulsfolge mit einer abklingenden Exponentialfunktion (5.5) zur Erzeugung einer der Pitchimpulsfolge entsprechenden Folge von exponentiell abklingenden Sinusschwingungen oder
b) zum Aufbau stimmloser Laute mit einem tiefpaßgefilterten weißen Rauschsignal (9.5) zur Erzeugung eines durch die Sinusschwingung amplitudenmodulierten Rauschsignals verknüpft (5.6 bzw. 9.6) werden. ;
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß zur Erzeugung der ungedämpften Sinusschwingung entsprechend der Formantfrequenz Fnach Betrag und Vorzeichen für den Betrag schrittweise jeweils der m-te Abtastwert einer mit /7/2 äquidistanten Abtastwerten gespeicherten Sinushalbwelle (5.4 bzw. 9.4) entsprechend s'\n(2nk/n) mit k=0...n/2 und n = 2" und a = ganzzahlig, mit einer Folgefrequenz f, zyklisch ausgelesen wird und diese Abtastwerte aneinandergereiht werden, wobei eine mit a Stellen binar dargestellte Größe s bei jedem Schritt um
F- η
f,
erhöht wird, m durch die a— 1 geringstwertigen Stellen von * dargestellt wird, bei der Erhöhung von 5 jedesmal im Falle 5=2" das überlaufende Bit unberücksichtigt bleibt, für das Vorzeichen die hochwertigste Stelle von 5 ausgewertet wird und für die Erzeugung stimmhafter Laute bei Auftreten eines Pitchimpulses s zu Null oder auf einen Startwert Ssl gesetzt wird.
3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß die abgespeicherten Abtastwerte der positiven Sinushalbwelle, die Abtastwerte der abklingenden Exponentialfunktion und die Abtastwerte des tiefpaßgefilterten Rauschsignals in Form ihrer positiven oder negativen Logarithmen zur Basis 2 vorliegen und daß damit die oben angesprochenen Verknüpfungen zu Additionen (5.6 bzw. 9.6) werden.
4. Verfahren nach Anspruch 1 und 3, dadurch gekennzeichnet, daß die für die amplitudenmäßige Bewertung entsprechend der Formantamplituden erforderlichen Steuergrößen ebenfalls in logarithmischer Form mit der Basis 2 vorliegen, so daß die
Bewertung durch eine einfache Addition erfolgen kann (5.7 bzw. 9.7).
5. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß zur Erzeugung des tiefpaßgefilterten weißen Rauschsignals einer vorgebbaren Grenzfrequenz B/2 jeweils der m-te Abtastwert eines mit einer ersten Folgefrequenz /, ι äquidistant abgetasteten, mit /7=2" (a ganzzahlig) Abtastwerten gespeicherten und mit einer kleinsten Grenzfrequenz von b/2 tiefpaßgefilterten weißen Rauschsignals (9.5) mit einer zweiten Folgefrequenz fn zyklisch ausgelesen und aneinandergereiht wird, wobei m binär dargestellt ist und bei jedem Schritt um
DE19762650101 1976-10-30 1976-10-30 Verfahren zur Sprachsynthese nach dem Formantvocoderprinzip Expired DE2650101C2 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE19762650101 DE2650101C2 (de) 1976-10-30 1976-10-30 Verfahren zur Sprachsynthese nach dem Formantvocoderprinzip

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE19762650101 DE2650101C2 (de) 1976-10-30 1976-10-30 Verfahren zur Sprachsynthese nach dem Formantvocoderprinzip

Publications (2)

Publication Number Publication Date
DE2650101A1 DE2650101A1 (de) 1978-05-11
DE2650101C2 true DE2650101C2 (de) 1984-01-19

Family

ID=5992199

Family Applications (1)

Application Number Title Priority Date Filing Date
DE19762650101 Expired DE2650101C2 (de) 1976-10-30 1976-10-30 Verfahren zur Sprachsynthese nach dem Formantvocoderprinzip

Country Status (1)

Country Link
DE (1) DE2650101C2 (de)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6017120B2 (ja) * 1981-05-29 1985-05-01 松下電器産業株式会社 音素片編型音声合成方式
FI103233B1 (fi) * 1997-08-15 1999-05-14 Nokia Telecommunications Oy Menetelmä halutun taajuuden omaavan signaalin generoimiseksi ja taajuussyntetisaattori

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CH238417A (de) * 1941-06-20 1945-07-15 Philips Nv Verfahren und Vorrichtung zur Übertragung von Sprache auf elektrischem Wege.

Also Published As

Publication number Publication date
DE2650101A1 (de) 1978-05-11

Similar Documents

Publication Publication Date Title
DE2524497C3 (de) Verfahren und Schaltungsanordnung zur Sprachsynthese
DE69228211T2 (de) Verfahren und Apparat zur Handhabung von Höhe und Dauer eines physikalischen Audiosignals
DE2431161C2 (de) Tonerzeugungseinrichtung für ein elektronisches Musikinstrument
DE2535344C2 (de) Einrichtung zum elektronischen Erzeugen von Klangsignalen
DE69033510T2 (de) Numerischer sprachkodierer mit verbesserter langzeitvorhersage durch subabtastauflösung
DE2636032C3 (de) Elektrische Schaltungsanordnung zum Extrahieren der Grundschwingungsperiode aus einem Sprachsignal
DE69317802T2 (de) Verfahren und Vorrichtung für Tonverbesserung unter Verwendung von Hüllung von multibandpassfiltrierten Signalen in Kammfiltern
DE3019823C2 (de)
DE69014680T2 (de) Einrichtung zur Stimmensynthese.
DE3006339C2 (de) Sprachsyntesizer
DE69727503T2 (de) System und verfahren zur tonsynthese mittels einer längenmodulierten digitalen verzögerungsleitung
DE1622162B2 (de) Verfahren zum verdoppeln der frequenz eines saegezahnsignals und anordnung zur durchfuehrung des verfahrens
DE2650101C2 (de) Verfahren zur Sprachsynthese nach dem Formantvocoderprinzip
DE2513127C2 (de) Verfahren zum künstlichen Erzeugen eines musikalischen Klangs
DE3101590C2 (de) Anordnung zum Erzeugen eines Sprachsignals
DE10023157A1 (de) Vorrichtung und Verfahren zum Verarbeiten der Phaseninformation eines akustischen Signals
DE3037276C2 (de) Tonsynthesizer
DE2826818C2 (de) Verfahren und Vorrichtung zum Erzeugen eines künstlichen Durchschnitts-Sprechsignals
DE3732047C2 (de)
DE2051589A1 (de) Anordnung zur Synthese eines Signals
DE69519086T2 (de) Sprachsynthese
DE2826570C2 (de)
DE2904426A1 (de) Analog-sprach-codierer und decodierer
DE10010037B4 (de) Verfahren zur Rekonstruktion tieffrequenter Sprachanteile aus mittelhohen Frequenzanteilen
EP1755110A2 (de) Verfahren und Vorrichtung zur adaptiven Reduktion von Rausch- und Hintergrundsignalen in einem sprachverarbeitenden System

Legal Events

Date Code Title Description
OGA New person/name/address of the applicant
OD Request for examination
D2 Grant after examination
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee