DE2650101C2

DE2650101C2 - Verfahren zur Sprachsynthese nach dem Formantvocoderprinzip

Info

Publication number: DE2650101C2
Application number: DE19762650101
Authority: DE
Inventors: Herbert Dipl.-Ing. 6100 Darmstadt Wolf
Original assignee: Dornier System GmbH; Siemens AG; Standard Elektrik Lorenz AG
Current assignee: Dornier System GmbH; Siemens AG; Alcatel Lucent Deutschland AG
Priority date: 1976-10-30
Filing date: 1976-10-30
Publication date: 1984-01-19
Also published as: DE2650101A1

Description

B =

erhöht wird und im Falle m>n das überlaufende Bit unberücksichtigt bleibt.

6. Verfahren nach Anspruch 1 und 2, dadurch gekennzeichnet, daß für die Erzeugung stimmhafter Laute beim Auftreten eines Pitchimpulses abhängig vom momentanen Wert der abklingenden Sinusschwingung ein Startwert S_s, erzeugt wird, der bewirkt, daß die nach Auftreten des Pitchimpulses neu beginnende abklingende Sinusschwingung derart in ihrer Phasenlage verschoben wird, daß zwischen der vorhergehenden und der neuen Sinusschwingung kein Amplitudensprung auftritt.

7. Verfahren nach Anspruch 1 bis 6, dadurch gekennzeichnet, daß für die Synthese von Sprachsignalen, die einem oder mehreren voneinander unabhängigen Sprachkanälen zugeordnet sind, jeweils nur eine Vorrichtung zur Erzeugung der Sinusschwingung (5.1, 5.2, 5.4 bzw. 9.1, 9.2, 9.4), der abklingenden Exponentialfunktion (5.5), des Rauschsignals (9.5), der Verknüpfung von Exponentialfunktion und Sinusschwingung (5.6) bzw. Rauschsignal (9.6) und Sinusschwingung, zur Phasenkorrektur (5.10), zur anschließenden Verknüpfung (5.7 bzw. 9.7) mit der Formantamplitude und ggf. zur Delogarithmierung (5.8 bzw. 9.8) und Summierung der so erzeugten Sprachteilsignale vorgesehen ist und die Anordnung im zeitlichen Multiplex derart betrieben wird, daß die zu einem Sprachkanal gehörenden Teilsprachsignale in direkter zeitlicher Reihenfolge aufeinanderfolgend erzeugt und am Ausgang fortlaufend aufsummiert werden.

Die Erfindung bezieht sich auf ein Verfahren zur Sprachsynthese nach dem Formantvocoderprinzip, bei dem für den Aufbau der stimmhaften Laute gedämpfte Sinusschwingungen verschiedener Frequenz und zur Erzeugung stimmloser Laute ein Rauschsignal verwendet werden und bei dem beide Lauttypen innerhalb derselben Einrichtung einer amplitudenmäßigen Bewertung entsprechend den Formantamplituden unterworfen werden.

Eine ähnliche Anordnung dieser Art ist in der deutschen Auslegeschrift 18 11 040 beschrieben. Diese bekannte Anordnung zum Synthetisieren von Sprach-Signalen besitzt zwei Hauptbestandteile. Der eine daven ist ein Speicher, in dem als Grundbausteine für den Aufbau der stimmhaften Laute gedämpfte Sinusschwingungen verschiedener Frequenz und weitere akustische

Grundbausteine für den Aufbau stimmloser Laute enthalten sind, die in Verbindung miteinander die zu synthetisierenden Sprachsignale liefern. Den zweiten Hauptbestandteil der bekannten Anordnung bildet eine Steuerschaltung, die für jeden zu erzeugenden stimmhaften Laut die mehrfache Abfrage der Sinusschwingung entsprechend der Formantfrequenz mit konstanter, der Pitchfrequenz der zu synthetisierenden Sprachsignale entsprechender Folgefrequenz und quadratisch mit der Formantfrequenz abnehmender Amplitude veranlaßt.

Die bekannte Anordnung enthält dabei für den Aufbau der stimmhaften Laute eine große Anzahl in Form gedämpfter Sinusschwingungen verschiedener Frequenz abgespeicherter Grundbausteine und zur Erzeugung stimmloser Laute die entsprechenden Phoneme gespeichert, woraus sich naturgemäß ein sehr großer Bedarf an Speicherplätzen ergibt. Außerdem ist es mit dieser Anordnung nicht oder nur mit einem erheblichen Mehraufwand an Speicherplätzen möglich, die Formantbandbreite unabhängig von der Formantfrequenz zu steuern.

In der Zeitschrift »IEEE Transactions on Audio and Elektroacoustics« vom Juni 1973, auf den Seiten 298 bis 305, ist weiterhin ein Verfahren beschrieben, das ebenfalls auf dem Formantvocoderprinzip beruht und das im wesentlichen mittels einer parallelen Anordnung von steuerbaren Filtern Sprachsignale synthetisieren kann. Die Filter können dabei sowohl von einem periodischen pulsförmigen Signal zur Erzeugung stimmhafter Laute, als auch Von einem rauschartigen Signal zur Erzeugung stimmloser Laute angeregt werden. Die einzelnen gefilterten Sipnale werden zur Bildung des vollständigen Sprachsignals aufsummiert. Das Problem bei der Realisierung einer derartigen Einrichtung liegt darin, steuerbare Filter mit hinreichender Genauigkeit und Wirtschaftlich vertretbarem Aufwand aufzubauen.

Der Erfindung liegt die Aufgabe zugrunde, ein nach dem Grundprinzip des Formantvocoders arbeitendes Verfahren mit der diesem Verfahren eigenen hohen Sprachqualität so zu gestalten, daß die für seine Durchführung erforderliche Schaltungsanordnung sich mit einem minimalen Aufwand an Bauelementen realisieren läßt.

Diese Aufgabe wird ausgehend von einem Verfahren zur Sprachsynthese der einleitend beschriebenen Art gemäß der Erfindung dadurch gelöst, daß innerhalb der Anordnung eine oder mehrere, in ihrer Frequenz steuerbare, den Formantfrequenzen entsprechende Sinusschwingungen erzeugt werden und diese entweder

a) zum Aufbau stimmhafter Laute im Rhythmus einer der Pitchfrequenz des zu synthetisierenden Sprachsignals entsprechenden Pitchimpulsfolge mit einer abklingenden Exponentialfunktion zur Erzeugung einer der Pitchimpulsfolge entsprechenden Folge von exponentiell abklingenden Sinusschwingungen oder

b) zum Aufbau stimmloser Laute mit einem tiefpaßgefilterten weißen Rauschsignal zur Erzeugung eines durch die Sinusschwingung amplitudenmodulierten Rauschsigrials verknüpft werden.

Das Grundprinzip der Erfindung beruht darauf, daß durch Verknüpfung zweier bekannter Verfahren, nämlich der Erzeugung stimmhafter Laute durch die Verwendung exponentiell abklingender Sinusschwingungen einerseits und der Erzeugung stimmloser Laute durch Modulieren eines tiefpaßgefilterten Rauschsignals mit einer variablen Trägerfrequenz andererseits und durch Verwendung im wesentlichen nur einer gemeinsamen Einrichtung zur Durchführung beider V Verfahren auf einfache Weise Sprachsignale hoher Qualität erzeugt werden können.

Darüber hinaus kann der Aufwand für die Realisierung einer derartigen Einrichtung dadurch sehr gering gehalten werden, daß zum einen eine spezielle Art der

ίο Erzeugung abklingender Sinusschwingungen und tiefpaßgefilterter Rauschsignale veränderlicher Bandbreite angewandt wird, zum zweiten durch besondere Codierung der hauptsächlichen Signale alle erforderlichen Rechenoperationen auf einfache Addition zurückgeführt werden sowie die abklingende Exponentialfunktion zur einfachen linearen Rampenfunktion wird und zum dritten infolge der besonderen Aneinanderreihung aller Funktionseinheiten ein Betreiben der gesamten Anordnung im zeitlichen Multiplex unter Anwendung der sogenannten »Pipeline«-Technik derart begünstigt wird, daß damit die gleichzeitige Synthese mehrerer unabhängiger Sprachsignale ermöglicht wird.

Zur Erläuterung der Einzelheiten der Erfindung wird in der folgenden Beschreibung auf die Figuren Bezug genommen. Es zeigen

Fig. la und Ib Darstellung typischer Frequenzspektren eines stimmhaften und eines stimmlosen Lautes,

F i g. 2 Blockschaltbild einer Sprachsyntheseeinrichtung nach dem Formantvocoderprinzip mit paralleler

jo Filterstruktur nach dem Stande der Technik,

F i g. 3b die Amplitude der Übertragungsfunktion und 3c die Impülsantwort einer Schwingkreisschaltung für ein steuerbares Filter nach F i g. 3a,

F i g. 4 zeitlicher Zusammenhang zwischen stimmhaften Anregungsimpulsen und Ausgangssignal eines Filters nach F i g. 3a,

F i g. 5 Blockschaltbild einer Einrichtung zur Erzeugung von Signalen für den Aufbau von stimmhaften Lauter) nach dem Verfahren der Erfindung,

F i g. 6 graphische Darstellung der in der Sinusliste abgespeicherten Funktion,

Fig. 7 graphische Darstellung der logarithmierten und negierten abklingenden Exponentenfunktion in Form einer Rampe,

F i g. 8 Übergang zwischen einer weitgehend abgeklungenen Sinusschwingung und einer neu beginnenden Sinusschwingung mit der zur Vermeidung des Phasensprunges vorgenommenen Phasenverschiebung (gestrichelte Linie),

F i g. 9 Blockschaltbild einer Einrichtung zur Erzeugung von Signalen für den Aufbau von stimmlosen Lauten nach dem Verfahren der Erfindung,

Fig. 10 spektrale Darstellung des angewandten Modulationsprinzips zur Erzeugung stimmloser Laute.

Im menschlichen Stimmbildungssystem werden stimmhafte Laute dadurch erzeugt, daß ein von der Lunge kommender Luftstrom durch die Vibration der Simmlippen im Rhythmus der Sprachgrundfrequenz zerhackt wird und anschließend den zwischen Stimmlippen und Mundöffnung liegenden Vokaltrakt passiert. Die rauschähnlichen stimmlosen Laute entstehen, wenn dieser Luftstrom ungehindert die weit geöffneten Stimmlippen passieren kann, aber an einer Verengung im Vokaltrakt turbulent verwirbelt wird. Der Vokaltrakt besteht aus einer Reihe wie Resonanzfilter wirkender Hohlräume, die durch artikularotische Bewegungen verändert werden können und nur die für die jeweiligen Laute charakteristischen Frequenzbereiche hervorhe-

In Fig. la sind die typischen Frequenzspektren eines stimmhaften Lautes und in F i g. Ib die eines stimmlosen Lautes schematisch dargestellt. Charakteristisch für den stimmhaften Laut sind in Fig. 1a die mit 1.1 bezeichneten Spektrallinien, die durch die Sprachgrundfrequenz und deren Oberwellen gebildet werden. Die Einhüllende 1.2 dieser Spektrallinien zeigt ausgeprägte lokale Maxima 1.3, 1.4 und 1.5, die sogenannten Formanten. Jedem unterscheidbaren stimmhaften Laut ist eine bestimmte Kombination von Formanten verschiedener Mittenfrequenzen und Intensitäten zugeordnet. Im Gegensatz dazu besitzt der stimmlose Laut nach Fig. Ib ein typisches Rauschspektrum 1.6, dessen Hüllkurve 1.7 aber ebenfalls lokale Maxima 1.8 und 1.9 erkennen läßt.

Eine bekannte Einrichtung, mit der sich auf elektronischem Wege derartige Sprachsignale erzeugen lassen, ist der Sprachsynthetisator nach dem Formantvocoderprinzip. In Fig. 2 ist das Blockschaltbild einer möglichen Ausführung eines solchen Synthetisators dargestellt.

Dieser Synthetisator besteht im wesentlichen aus η parallel angeordneten, in ihrer Mittenfrequenz Fu F_v, F_n und ihrer Bandbreite B\, B_x,, B_n steuerbaren Bandpaßfiltern (2.4). Im folgenden wird nur der mittlere Zweig der Schaltung mit dem Filter ν betrachtet.

Zum Synthetisieren stimmhafter Lautanteile wird, gesteuert durch die Steuergröße Z„, die Schaltungsanordnung 2.3,, so eingestellt, daß die von der Pitchquelle 2.1 erzeugte Impulsfolge an den Filtereingang des Filters ν gelangt.

Die Sprachgrundfrequenz f₀, mit der diese Lautanteile synthetisiert werden, ist dabei durch die Folgefrequenz dieser Impulsfolge gegeben.

Stimmlose Lautanteile entstehen, wenn über die Schaltanordnung 2.3„ das von der Rauschquelle 2.2 generierte weiße Rauschsignal den Filtereingang erreicht.

Die Bandpaßfilter werden, abhängig vom gewünschten Laut, auf die jeweiligen Formantmittenfrequenzen eingestellt. Dabei genügt es im allgemeinen, die ersten drei Formanten zu berücksichtigen, um die wichtigsten Laute zu charakterisieren. Mit zwei bis drei zusätzlichen Formanten kann die Natürlichkeit der einzelnen synthetisch erzeugten Laute aber noch wesentlich erhöht werden.

Die Ausgangssignale der Filter werden in jedem Filterzweig separat in den Multiplizierern 2.5i... 2.5„ mit den Koeffizienten A_v bzw. V₁, amplitudenmäßig bewertet. Dabei stellt A₁, den Betrag und V_r das Vorzeichen des jeweiligen Koeffizienten dar. Schließlich werden die so erzeugten Signale der. einzelnen Filterzweige in einer Summierstufe 2.7 zusammengefaßt und ergeben damit am Ausgang das synthetisierte Sprachsignal, das durchnachgeschaltete Verstärker und einen elektroakustischen Wandler (z. B. Lautsprecher) 2.8 auch hörbar gemacht werden kann.

Die steuerbaren Bandpaßfilter können vorzugsweise aus einer Schwingkreisschaltung RLC der in Fig.3a angegebenen Art bestehen. Der Verlauf des Betrages der Übertragungsfunktion einer solchen Schaltung und die beiden charakteristischen Kenngrößen Resonanzmittenfrequenz F und Bandbreite B sind in Fig.3b dargestellt. Schließlich zeigt F i g. 3c die Impulsantwort Ui eines derartigen Filters, die sich als Produkt einer abklingenden e-Funktion e-^s, mit einer Sinusschwingung sind 2TrFf darstellt. Der Dämpfungsfaktor der e-Funktion ist dabei proportional der Filterbandbreite B, die Frequenz der Sinusschwingung entspricht der Resonanzfrequenz Fdes Schwingkreises.

Geht man davon aus, daß, wie im Falle der stimmhaften Anregung der Filter zur Erzeugung stimmhafter Lautanteile, die Filter mit einer Folge von Impulsen angeregt werden, so ist leicht ersichtlich, daß dann das Ausgangssignal aus einer Folge von abklingenden Sinusschwingungen der in F i g. 3c dargestellten Art

ίο besteht. In Fig.4 ist der zeitliche Zusammenhang zwischen den im Abstand T= 1//Ό (Zo Sprachgrundfrequenz) auftretenden Eingangsimpulsen und dem Ausgangssignal aufgezeigt.

Eine Einrichtung zur Erzeugung derartiger Ausgangssignale nach dem Verfahren der Erfindung für den Aufbau stimmhafter Laute ohne Verwendung von bisher nur sehr kostspielig realisierbaren steuerbaren Filtern zeigt F i g. 5. Im wesentlichen wird mittels der Einrichtung 5.1 bis 5.4 eine, in besonderer logarithmischer Form dargestellte Sinusschwingung veränderlicher Frequenz F erzeugt und anschließend in einem Addierer 5.6 mit einer in 5.5 generierten, ebenfalls in einer besonderen logarithsmischen Form dargestellten, abklingenden Exponentialfunktion derart verknüpft, daß am Ausgang dieses Addierers eine wiederum logarithmisch dargestellte abklingende Sinusschwingung entsteht. Dieses Signal wird in dem anschließenden Addierer 5.7 mit der logarithmierten Amplitude A bewertet und durchläuft schließlich eine Delogarithmiereinheit 5.8, so daß es am Ausgang eine Form annimmt, wie sie in F i g. 3c dargestellt ist.

Die Erzeugung der Sinusschwingung geht im einzelnen wie folgt vor sich:

In einem digitalen Speiche-baustein (5.4) ist die positive Halbwelle einer Sinusfunktion mit z. B. /j/2 = 2^a-' äquidistanten diskreten Abtastwerten in Form ihrer negativen Logarithmen zur Basis 2 mit 4 Jßit Exponent und 4 Bit Mantisse abgespeichert (siehe Fig.6).

Die Adressierung dieses Speichers erfolgt über eine a-l = 10 Bits breite Adreßleitung (5.3), die von den niederwertigeren Bits eines a = 11 Bits breiten Addierers gespeist wird. Wird nun diese Adresse im Takte einer Abtastfrequenz von z.B. /,,6, = 8kHz jeweils um eine Schrittweite von k Adreßschritten dadurch erhöht, daß bei jedem Takt zu dem im Register 5.2 zwischengespeicherten Adreßwert des vorhergehenden Taktes die Steuergröße k addiert wird, so entstehen am Ausgang des Speicherbausteines 5.4 die Abtastwerte einer betragsmäßig logarithmierten und negierten Sinusschwingung der Frequenz

F =

abt

Das Vorzeichen des jeweiligen Abtastwertes bestimmt sich aus dem Wert des hochwertigsten, nicht mehr zur Adresse des Speicherbausteines gehörenden Bits des Addiererausganges, wobei 0 positive und 1 negative Werte anzeigt. Übersteigt der Wert am Addiererausgang 2"-\ so entsteht ein Überlauf, der aber unberücksichtigt bleibt, so daß sich die Adreßzählung entsprechend der Periodizität der zu erzeugenden Sinusschwingung zyklisch wiederholt. Die wesentlichen Vorteile der hier gewählten negativen logartihmischen Darstellung der Signale bestehen einmal darin, daß die erforderlichen multiplikativen Signalverknüpfungen zwischen der abklingenden Exponentialfunktion e--^Tß*^r,

der Sinusschwingung sin 2nFkTund der Formantatnplitude A zu einfachen Additionen werden, zum anderen wird die logarithmierte und negierte Exponentialfunktion selbst zur einfachen linearen Rampenfunktion (siehe F i g. 7), deren Steigung direkt der gewünschten Formantbandbreite proportional zu wählen ist. Diese Rampenfunktion läßt sich sehr leicht durch z. B. laufende Aufaddierung einer konstanten Größe erzeugen, die im Beispiel = 1 für eine Formantbandbreite von ca. 50 Hz und = 3 für eine Formantbandbreite von ca. 150 Hz ist. Treten bei den Additionen der Logarithmen Überläufe auf, so wird auf die größte, mit 8 Bits darstellbare Zahl, nämlich 255 begrenzt. Bei der Delogarithmierung über die Delogarithmierliste 5.8 wird dieser Zahl der Wert 0 zugeordnet.

Fig.4 zeigt, wie mit jedem der im Abstand T=Mf₀ (fo = Sprachgrundfrequenz) auftretenden Impulse der stimmhaften Anregung eine neue exponential abklingende Sinusschwingung beginnt. Entsprechend muß in der Einrichtung nach Fig.5 zum Zeitpunkt des Auftretens eines solchen Pitchimpulses zum einen die Adresse der Sinusliste auf einen bestimmten Startadreßwert voreingestellt werden und zum anderen die Rampenfunktion wieder auf Null zurückgesetzt werden.

F i g. 8 läßt den exakten Verlauf des Ausgangssignals des Addierers 5.6 in F i g. 5 negierter und delogarithmierter Darstellung erkennen. Es ist deutlich zu sehen, daß immer dann, wenn die Sinusschwingungen innerhalb einer Sprachgrundfrequenzperiode nicht vollständig abgeklungen ist, und das ist der Regelfall für die schmalbandigen Formanten, und wenn die Formantmit; tenfrequenz F nicht, ein ganzzahliges Vielfaches der halben Sprachgrundfreauenz Z₀ ist, Phasensprünge zu den Zeitpunkten des Pitchimpulses auftreten, die sich akustisch als Störgeräusche bemerkbar machen.

Deshalb ist in Weiterbildung der Erfindung eine Korrektureinrichtung vorgesehen, die zum Zeitpunkt des Pitchimpulses, abhängig von der momentanen Amplitude der abklingenden Schwingung, einen Startadreßwert zur Voreinstellung der Adresse der Sinusliste 5.4 in F i g. 5 derart erzeugt, daß die neue Schwingung eine positive oder negative Phasenverschiebung in genau dem Maße erfährt, das erforderlich ist, um an der Übergangsstelle einen Sprung zu vermeiden (siehe gestrichelte Linie in F i g. 8).

Diese Korrektureinrichtung kann z. B. so realisiert werden, daß das Ausgangssignal von Addierer 5.6 in F i g. 5 als Maß für den Betrag und das hochwertigste Bit von Addierer 5.1 als Vorzeichen der abklingenden Sinusschwingung zur Adressierung einer in einem digitalen Speicherbaustein abgespeicherten Korrekturliste 5.10 verwendet wird, wobei diese Korrekturliste derart beschaffen ist, daß unter der jeweiligen Adresse immer der entsprechende, die Phasenverschiebung verursachende, Startadreßwert für die Sinusliste ausgelesen und damit die Adresse der Sinusliste voreingestellt werden kann. Nach Abschluß aller Signalverknüpfungen wird das so entstandene Signal, welches in negativ logarithmischer Form das Ausgangssignal eines Parallelzweiges des Formantsynthetisators nach F i g. 2 darstellt, delogarithmiert. Unter anderem eignet sich dazu eine in einem digitalen Speicherbaustein (5.8) abgespeicherten Delogarithmiertabelle. Dabei ergeben das mit 8 Bits logarithmierte Signal und ein Vorzeichenbit die Adresse, und die mit 12 Bits einschließlich Vorzeichen abgespeicherten Werte das Ausgangssignal.

Das Vorzeichenbit der Adresse ist dabei aus dem hochwertigsten Bit am Ausgang von Addierer 5.1, welches das Vorzeichen der Sinusschwingung repräsentiert, und dem Vorzeichenbit des in Vorzeichen und logarithmiertem Betrag dargestellten Formantamplitudenwertes A, derart zu bilden, daß diese beiden binären Zeichen per »exclusiv-oder« verknüpft werden.

Eine Einrichtung zur erfindungsgemäßen Erzeugung von rauschähnlichen Signalen für den Aufbau stimmloser Laute, die solchen Signalen, weiche sich durch Filterung einer Rauschquelie, entsprechend F i g. 2, erzeugen lassen, äquivalent sind, zeigt F i g. 9.

Das dabei angewandte Grundprinzip verdeutlicht Fig. 10. Ein mit einer Grenzfrequenz von B/2 gleich z. B. 75 Hz tiefpaßgefiltertes weißes Rauschsignal mit einem spektralen Verlauf vergleichbar 10.1 wird durch Multiplikation mit einer Sinusschwingung veränderlicher Frequenz amplitudenmoduliert. Die Spektren dieser Trägerfrequenz F(10.2) und des dabei entstehenden Signals mit oberem (10.3) und unterem (10.4) Seitenband sind ebenfalls in F i g. 10 eingezeichnet. Wie Fig.9 zeigt, läßt sich diese Modulation einschließlich einer anschließenden Bewertung mit einem Amplitudenfaktor A ebenfalls mit der schon für die Erzeugung stimmhafter Laute in F i g. 5 dargestellten Vorrichtung erzeugen, wenn an Stelle der Rampenfunktion (5.5) als einer der Summanden Abtastwerte eines tiefpaßgefilterten, logarithmierten und negierten Rauschsignals dem Addierer 5.6 zugeführt werden. Dieses Rauschsignal kann z. B. dadurch erzeugt werden, daß, vergleichbar der Erzeugung der Sinusschwingung, ein mit einer geringsten Grenzfrequenz von z.B. f_gmi„ = 25 Hz tiefpaßgefiltertes Rauschsignal mit der Abtastfrequenz f_ub, abgetastet, digitalisiert, logarithmiert, negiert und in einem digitalen Speicherbaustein abgespeichert wird. Ein Rauschsignal einer gewünschten Grenzfrequenz k ■ fgmin, die in beliebiges Ganzzahliges von 25 Hz beträgt, entsteht dann, wenn nacheinander nur jeder /c-te Wert aus dem Speicher ausgelassen wird. Es genügt zur Erzeugung natürlich klingender Sprache, wenn insgesamt nur ein Bruchteil einer Sekunde des Rauschsignals in oben beschriebener Weise abgespeichert und zyklisch wiederholend ausgelesen wird. Damit sich die Periodendauer dieses Rauschsignals auch bei den höheren Grenzfrequenzen nicht verringert, ist es zweckmäßig, als Anzahl der abgespeicherten Abtastwerte eine Primzahl zu wählen.

Um das vollständige Sprachsignal zu erhalten, müssen, wie Fig. 2 zeigt, alle Teilsprachsignale der einzelnen Filterzweige aufsummiert werden. Diese Summierung läßt sich besonders dann sehr einfach gestalten, wenn eine solche Einrichtung nach F i g. 5 und 9 für die E.-zeugung aller Teilsignale im zeitlichen Multiplex betrieben wird. In diesem Fall ist es nur erforderlich, die η zeitlich aufeinanderfolgenden Teilsignale am Ausgang der Delogarithmierliste aufzuaddieren, wobei dann der nach η Additionen erhaltene Summenwert das vollständige Sprachsignal repräsentiert

Zur akustischen Wiedergabe muß dieses digitale Sprachsignal noch mittels Digital-Analog-Wandler in ein analoges Signal überführt werden und kann dann nach Tiefpaßbegrenzung auf die halbe Abtastfrequenz fabt/2 und Verstärkung einem Lautsprecher zugeführt werden.

Hierzu 8 Blatt Zeichnungen

Claims

Patentansprüche:

1. Verfahren zur Sprachsynthese nach dem Formantvocoderprinzip, bei dem für den Aufbau der stimmhaften Laute gedämpfte Sinusschwingungen verschiedener Frequenz und zur Erzeugung stimmloser Laute ein Rauschsignal verwendet werden und bei dem beide Lauttypen innerhalb derselben Einrichtung einer amplitudenmäßigen Bewertung entsprechend den Formantamplituden unterworfen werden, dadurch gekennzeichnet, daß innerhalb der Anordnung eine oder mehrere, in ihrer Frequenz steuerbare, den Formantfrequenzen entsprechende Sinusschwingungen (5.1, 5.2, 5.4 bzw. 9.1,9.2,9.4) erzeugt werden und diese entweder

a) zum Aufbau stimmhafter Laute im Rhythmus einer der Pitchfrequenz des zu nynthetisierenden Sprachsignals entsprechenden Pitchimpulsfolge mit einer abklingenden Exponentialfunktion (5.5) zur Erzeugung einer der Pitchimpulsfolge entsprechenden Folge von exponentiell abklingenden Sinusschwingungen oder

b) zum Aufbau stimmloser Laute mit einem tiefpaßgefilterten weißen Rauschsignal (9.5) zur Erzeugung eines durch die Sinusschwingung amplitudenmodulierten Rauschsignals verknüpft (5.6 bzw. 9.6) werden. ;

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß zur Erzeugung der ungedämpften Sinusschwingung entsprechend der Formantfrequenz Fnach Betrag und Vorzeichen für den Betrag schrittweise jeweils der m-te Abtastwert einer mit /7/2 äquidistanten Abtastwerten gespeicherten Sinushalbwelle (5.4 bzw. 9.4) entsprechend s'\n(2nk/n) mit k=0...n/2 und n = 2" und a = ganzzahlig, mit einer Folgefrequenz f, zyklisch ausgelesen wird und diese Abtastwerte aneinandergereiht werden, wobei eine mit a Stellen binar dargestellte Größe s bei jedem Schritt um

F- η

f,

erhöht wird, m durch die a— 1 geringstwertigen Stellen von * dargestellt wird, bei der Erhöhung von 5 jedesmal im Falle 5=2" das überlaufende Bit unberücksichtigt bleibt, für das Vorzeichen die hochwertigste Stelle von 5 ausgewertet wird und für die Erzeugung stimmhafter Laute bei Auftreten eines Pitchimpulses s zu Null oder auf einen Startwert S_sl gesetzt wird.

3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß die abgespeicherten Abtastwerte der positiven Sinushalbwelle, die Abtastwerte der abklingenden Exponentialfunktion und die Abtastwerte des tiefpaßgefilterten Rauschsignals in Form ihrer positiven oder negativen Logarithmen zur Basis 2 vorliegen und daß damit die oben angesprochenen Verknüpfungen zu Additionen (5.6 bzw. 9.6) werden.

4. Verfahren nach Anspruch 1 und 3, dadurch gekennzeichnet, daß die für die amplitudenmäßige Bewertung entsprechend der Formantamplituden erforderlichen Steuergrößen ebenfalls in logarithmischer Form mit der Basis 2 vorliegen, so daß die

Bewertung durch eine einfache Addition erfolgen kann (5.7 bzw. 9.7).

5. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß zur Erzeugung des tiefpaßgefilterten weißen Rauschsignals einer vorgebbaren Grenzfrequenz B/2 jeweils der m-te Abtastwert eines mit einer ersten Folgefrequenz /, ι äquidistant abgetasteten, mit /7=2" (a ganzzahlig) Abtastwerten gespeicherten und mit einer kleinsten Grenzfrequenz von b/2 tiefpaßgefilterten weißen Rauschsignals (9.5) mit einer zweiten Folgefrequenz fn zyklisch ausgelesen und aneinandergereiht wird, wobei m binär dargestellt ist und bei jedem Schritt um