DE2650101C2 - Verfahren zur Sprachsynthese nach dem Formantvocoderprinzip - Google Patents
Verfahren zur Sprachsynthese nach dem FormantvocoderprinzipInfo
- Publication number
- DE2650101C2 DE2650101C2 DE19762650101 DE2650101A DE2650101C2 DE 2650101 C2 DE2650101 C2 DE 2650101C2 DE 19762650101 DE19762650101 DE 19762650101 DE 2650101 A DE2650101 A DE 2650101A DE 2650101 C2 DE2650101 C2 DE 2650101C2
- Authority
- DE
- Germany
- Prior art keywords
- frequency
- formant
- sounds
- noise signal
- samples
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
- 238000000034 method Methods 0.000 title claims description 19
- 230000015572 biosynthetic process Effects 0.000 title claims description 7
- 238000003786 synthesis reaction Methods 0.000 title claims description 7
- 230000010355 oscillation Effects 0.000 claims description 36
- 238000007792 addition Methods 0.000 claims description 6
- 238000011156 evaluation Methods 0.000 claims description 5
- 238000001208 nuclear magnetic resonance pulse sequence Methods 0.000 claims description 5
- 230000033764 rhythmic process Effects 0.000 claims description 3
- 230000006870 function Effects 0.000 description 18
- 238000010276 construction Methods 0.000 description 6
- 238000012937 correction Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000003595 spectral effect Effects 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 230000001755 vocal effect Effects 0.000 description 4
- 230000005284 excitation Effects 0.000 description 3
- 230000010363 phase shift Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 210000001260 vocal cord Anatomy 0.000 description 2
- 230000003321 amplification Effects 0.000 description 1
- 238000013016 damping Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 210000004072 lung Anatomy 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Electrophonic Musical Instruments (AREA)
Description
B =
erhöht wird und im Falle m>n das überlaufende Bit unberücksichtigt bleibt.
6. Verfahren nach Anspruch 1 und 2, dadurch gekennzeichnet, daß für die Erzeugung stimmhafter
Laute beim Auftreten eines Pitchimpulses abhängig vom momentanen Wert der abklingenden Sinusschwingung
ein Startwert Ss, erzeugt wird, der bewirkt, daß die nach Auftreten des Pitchimpulses
neu beginnende abklingende Sinusschwingung derart in ihrer Phasenlage verschoben wird, daß
zwischen der vorhergehenden und der neuen Sinusschwingung kein Amplitudensprung auftritt.
7. Verfahren nach Anspruch 1 bis 6, dadurch gekennzeichnet, daß für die Synthese von Sprachsignalen,
die einem oder mehreren voneinander unabhängigen Sprachkanälen zugeordnet sind, jeweils
nur eine Vorrichtung zur Erzeugung der Sinusschwingung (5.1, 5.2, 5.4 bzw. 9.1, 9.2, 9.4), der
abklingenden Exponentialfunktion (5.5), des Rauschsignals (9.5), der Verknüpfung von Exponentialfunktion
und Sinusschwingung (5.6) bzw. Rauschsignal (9.6) und Sinusschwingung, zur Phasenkorrektur
(5.10), zur anschließenden Verknüpfung (5.7 bzw. 9.7) mit der Formantamplitude und ggf. zur Delogarithmierung
(5.8 bzw. 9.8) und Summierung der so erzeugten Sprachteilsignale vorgesehen ist und die
Anordnung im zeitlichen Multiplex derart betrieben wird, daß die zu einem Sprachkanal gehörenden
Teilsprachsignale in direkter zeitlicher Reihenfolge aufeinanderfolgend erzeugt und am Ausgang fortlaufend
aufsummiert werden.
Die Erfindung bezieht sich auf ein Verfahren zur Sprachsynthese nach dem Formantvocoderprinzip, bei
dem für den Aufbau der stimmhaften Laute gedämpfte Sinusschwingungen verschiedener Frequenz und zur
Erzeugung stimmloser Laute ein Rauschsignal verwendet werden und bei dem beide Lauttypen innerhalb
derselben Einrichtung einer amplitudenmäßigen Bewertung entsprechend den Formantamplituden unterworfen
werden.
Eine ähnliche Anordnung dieser Art ist in der deutschen Auslegeschrift 18 11 040 beschrieben. Diese
bekannte Anordnung zum Synthetisieren von Sprach-Signalen besitzt zwei Hauptbestandteile. Der eine daven
ist ein Speicher, in dem als Grundbausteine für den Aufbau der stimmhaften Laute gedämpfte Sinusschwingungen
verschiedener Frequenz und weitere akustische
Grundbausteine für den Aufbau stimmloser Laute enthalten sind, die in Verbindung miteinander die zu
synthetisierenden Sprachsignale liefern. Den zweiten Hauptbestandteil der bekannten Anordnung bildet eine
Steuerschaltung, die für jeden zu erzeugenden stimmhaften Laut die mehrfache Abfrage der Sinusschwingung
entsprechend der Formantfrequenz mit konstanter, der Pitchfrequenz der zu synthetisierenden Sprachsignale
entsprechender Folgefrequenz und quadratisch mit der Formantfrequenz abnehmender Amplitude
veranlaßt.
Die bekannte Anordnung enthält dabei für den Aufbau der stimmhaften Laute eine große Anzahl in
Form gedämpfter Sinusschwingungen verschiedener Frequenz abgespeicherter Grundbausteine und zur
Erzeugung stimmloser Laute die entsprechenden Phoneme gespeichert, woraus sich naturgemäß ein sehr
großer Bedarf an Speicherplätzen ergibt. Außerdem ist es mit dieser Anordnung nicht oder nur mit einem
erheblichen Mehraufwand an Speicherplätzen möglich, die Formantbandbreite unabhängig von der Formantfrequenz
zu steuern.
In der Zeitschrift »IEEE Transactions on Audio and Elektroacoustics« vom Juni 1973, auf den Seiten 298 bis
305, ist weiterhin ein Verfahren beschrieben, das ebenfalls auf dem Formantvocoderprinzip beruht und
das im wesentlichen mittels einer parallelen Anordnung von steuerbaren Filtern Sprachsignale synthetisieren
kann. Die Filter können dabei sowohl von einem periodischen pulsförmigen Signal zur Erzeugung stimmhafter
Laute, als auch Von einem rauschartigen Signal zur Erzeugung stimmloser Laute angeregt werden. Die
einzelnen gefilterten Sipnale werden zur Bildung des vollständigen Sprachsignals aufsummiert. Das Problem
bei der Realisierung einer derartigen Einrichtung liegt darin, steuerbare Filter mit hinreichender Genauigkeit
und Wirtschaftlich vertretbarem Aufwand aufzubauen.
Der Erfindung liegt die Aufgabe zugrunde, ein nach dem Grundprinzip des Formantvocoders arbeitendes
Verfahren mit der diesem Verfahren eigenen hohen Sprachqualität so zu gestalten, daß die für seine
Durchführung erforderliche Schaltungsanordnung sich mit einem minimalen Aufwand an Bauelementen
realisieren läßt.
Diese Aufgabe wird ausgehend von einem Verfahren zur Sprachsynthese der einleitend beschriebenen Art
gemäß der Erfindung dadurch gelöst, daß innerhalb der Anordnung eine oder mehrere, in ihrer Frequenz
steuerbare, den Formantfrequenzen entsprechende Sinusschwingungen erzeugt werden und diese entweder
a) zum Aufbau stimmhafter Laute im Rhythmus einer der Pitchfrequenz des zu synthetisierenden Sprachsignals
entsprechenden Pitchimpulsfolge mit einer abklingenden Exponentialfunktion zur Erzeugung
einer der Pitchimpulsfolge entsprechenden Folge von exponentiell abklingenden Sinusschwingungen
oder
b) zum Aufbau stimmloser Laute mit einem tiefpaßgefilterten weißen Rauschsignal zur Erzeugung eines
durch die Sinusschwingung amplitudenmodulierten Rauschsigrials verknüpft werden.
Das Grundprinzip der Erfindung beruht darauf, daß durch Verknüpfung zweier bekannter Verfahren,
nämlich der Erzeugung stimmhafter Laute durch die Verwendung exponentiell abklingender Sinusschwingungen
einerseits und der Erzeugung stimmloser Laute durch Modulieren eines tiefpaßgefilterten Rauschsignals
mit einer variablen Trägerfrequenz andererseits und durch Verwendung im wesentlichen nur einer
gemeinsamen Einrichtung zur Durchführung beider V Verfahren auf einfache Weise Sprachsignale hoher
Qualität erzeugt werden können.
Darüber hinaus kann der Aufwand für die Realisierung einer derartigen Einrichtung dadurch sehr gering
gehalten werden, daß zum einen eine spezielle Art der
ίο Erzeugung abklingender Sinusschwingungen und tiefpaßgefilterter
Rauschsignale veränderlicher Bandbreite angewandt wird, zum zweiten durch besondere
Codierung der hauptsächlichen Signale alle erforderlichen Rechenoperationen auf einfache Addition zurückgeführt
werden sowie die abklingende Exponentialfunktion zur einfachen linearen Rampenfunktion wird und
zum dritten infolge der besonderen Aneinanderreihung aller Funktionseinheiten ein Betreiben der gesamten
Anordnung im zeitlichen Multiplex unter Anwendung der sogenannten »Pipeline«-Technik derart begünstigt
wird, daß damit die gleichzeitige Synthese mehrerer unabhängiger Sprachsignale ermöglicht wird.
Zur Erläuterung der Einzelheiten der Erfindung wird in der folgenden Beschreibung auf die Figuren Bezug
genommen. Es zeigen
Fig. la und Ib Darstellung typischer Frequenzspektren
eines stimmhaften und eines stimmlosen Lautes,
F i g. 2 Blockschaltbild einer Sprachsyntheseeinrichtung nach dem Formantvocoderprinzip mit paralleler
jo Filterstruktur nach dem Stande der Technik,
F i g. 3b die Amplitude der Übertragungsfunktion und 3c die Impülsantwort einer Schwingkreisschaltung für
ein steuerbares Filter nach F i g. 3a,
F i g. 4 zeitlicher Zusammenhang zwischen stimmhaften Anregungsimpulsen und Ausgangssignal eines
Filters nach F i g. 3a,
F i g. 5 Blockschaltbild einer Einrichtung zur Erzeugung von Signalen für den Aufbau von stimmhaften
Lauter) nach dem Verfahren der Erfindung,
F i g. 6 graphische Darstellung der in der Sinusliste abgespeicherten Funktion,
Fig. 7 graphische Darstellung der logarithmierten
und negierten abklingenden Exponentenfunktion in Form einer Rampe,
F i g. 8 Übergang zwischen einer weitgehend abgeklungenen Sinusschwingung und einer neu beginnenden
Sinusschwingung mit der zur Vermeidung des Phasensprunges vorgenommenen Phasenverschiebung (gestrichelte
Linie),
F i g. 9 Blockschaltbild einer Einrichtung zur Erzeugung von Signalen für den Aufbau von stimmlosen
Lauten nach dem Verfahren der Erfindung,
Fig. 10 spektrale Darstellung des angewandten Modulationsprinzips zur Erzeugung stimmloser Laute.
Im menschlichen Stimmbildungssystem werden stimmhafte Laute dadurch erzeugt, daß ein von der
Lunge kommender Luftstrom durch die Vibration der Simmlippen im Rhythmus der Sprachgrundfrequenz
zerhackt wird und anschließend den zwischen Stimmlippen und Mundöffnung liegenden Vokaltrakt passiert.
Die rauschähnlichen stimmlosen Laute entstehen, wenn dieser Luftstrom ungehindert die weit geöffneten
Stimmlippen passieren kann, aber an einer Verengung im Vokaltrakt turbulent verwirbelt wird. Der Vokaltrakt
besteht aus einer Reihe wie Resonanzfilter wirkender Hohlräume, die durch artikularotische Bewegungen
verändert werden können und nur die für die jeweiligen Laute charakteristischen Frequenzbereiche hervorhe-
In Fig. la sind die typischen Frequenzspektren eines
stimmhaften Lautes und in F i g. Ib die eines stimmlosen
Lautes schematisch dargestellt. Charakteristisch für den stimmhaften Laut sind in Fig. 1a die mit 1.1
bezeichneten Spektrallinien, die durch die Sprachgrundfrequenz und deren Oberwellen gebildet werden. Die
Einhüllende 1.2 dieser Spektrallinien zeigt ausgeprägte lokale Maxima 1.3, 1.4 und 1.5, die sogenannten
Formanten. Jedem unterscheidbaren stimmhaften Laut ist eine bestimmte Kombination von Formanten
verschiedener Mittenfrequenzen und Intensitäten zugeordnet. Im Gegensatz dazu besitzt der stimmlose
Laut nach Fig. Ib ein typisches Rauschspektrum 1.6, dessen Hüllkurve 1.7 aber ebenfalls lokale Maxima 1.8
und 1.9 erkennen läßt.
Eine bekannte Einrichtung, mit der sich auf elektronischem Wege derartige Sprachsignale erzeugen
lassen, ist der Sprachsynthetisator nach dem Formantvocoderprinzip. In Fig. 2 ist das Blockschaltbild einer
möglichen Ausführung eines solchen Synthetisators dargestellt.
Dieser Synthetisator besteht im wesentlichen aus η
parallel angeordneten, in ihrer Mittenfrequenz Fu Fv, Fn
und ihrer Bandbreite B\, Bx,, Bn steuerbaren Bandpaßfiltern
(2.4). Im folgenden wird nur der mittlere Zweig der Schaltung mit dem Filter ν betrachtet.
Zum Synthetisieren stimmhafter Lautanteile wird, gesteuert durch die Steuergröße Z„, die Schaltungsanordnung
2.3,, so eingestellt, daß die von der Pitchquelle 2.1 erzeugte Impulsfolge an den Filtereingang des
Filters ν gelangt.
Die Sprachgrundfrequenz f0, mit der diese Lautanteile
synthetisiert werden, ist dabei durch die Folgefrequenz dieser Impulsfolge gegeben.
Stimmlose Lautanteile entstehen, wenn über die Schaltanordnung 2.3„ das von der Rauschquelle 2.2
generierte weiße Rauschsignal den Filtereingang erreicht.
Die Bandpaßfilter werden, abhängig vom gewünschten Laut, auf die jeweiligen Formantmittenfrequenzen
eingestellt. Dabei genügt es im allgemeinen, die ersten drei Formanten zu berücksichtigen, um die wichtigsten
Laute zu charakterisieren. Mit zwei bis drei zusätzlichen Formanten kann die Natürlichkeit der einzelnen
synthetisch erzeugten Laute aber noch wesentlich erhöht werden.
Die Ausgangssignale der Filter werden in jedem Filterzweig separat in den Multiplizierern 2.5i... 2.5„
mit den Koeffizienten Av bzw. V1, amplitudenmäßig
bewertet. Dabei stellt A1, den Betrag und Vr das
Vorzeichen des jeweiligen Koeffizienten dar. Schließlich werden die so erzeugten Signale der. einzelnen
Filterzweige in einer Summierstufe 2.7 zusammengefaßt und ergeben damit am Ausgang das synthetisierte
Sprachsignal, das durchnachgeschaltete Verstärker und einen elektroakustischen Wandler (z. B. Lautsprecher)
2.8 auch hörbar gemacht werden kann.
Die steuerbaren Bandpaßfilter können vorzugsweise aus einer Schwingkreisschaltung RLC der in Fig.3a
angegebenen Art bestehen. Der Verlauf des Betrages der Übertragungsfunktion einer solchen Schaltung und
die beiden charakteristischen Kenngrößen Resonanzmittenfrequenz F und Bandbreite B sind in Fig.3b
dargestellt. Schließlich zeigt F i g. 3c die Impulsantwort Ui eines derartigen Filters, die sich als Produkt einer
abklingenden e-Funktion e-^s, mit einer Sinusschwingung
sind 2TrFf darstellt. Der Dämpfungsfaktor der
e-Funktion ist dabei proportional der Filterbandbreite B, die Frequenz der Sinusschwingung entspricht der
Resonanzfrequenz Fdes Schwingkreises.
Geht man davon aus, daß, wie im Falle der stimmhaften Anregung der Filter zur Erzeugung
stimmhafter Lautanteile, die Filter mit einer Folge von Impulsen angeregt werden, so ist leicht ersichtlich, daß
dann das Ausgangssignal aus einer Folge von abklingenden Sinusschwingungen der in F i g. 3c dargestellten Art
ίο besteht. In Fig.4 ist der zeitliche Zusammenhang
zwischen den im Abstand T= 1//Ό (Zo Sprachgrundfrequenz)
auftretenden Eingangsimpulsen und dem Ausgangssignal aufgezeigt.
Eine Einrichtung zur Erzeugung derartiger Ausgangssignale nach dem Verfahren der Erfindung für den
Aufbau stimmhafter Laute ohne Verwendung von bisher nur sehr kostspielig realisierbaren steuerbaren
Filtern zeigt F i g. 5. Im wesentlichen wird mittels der Einrichtung 5.1 bis 5.4 eine, in besonderer logarithmischer
Form dargestellte Sinusschwingung veränderlicher Frequenz F erzeugt und anschließend in einem
Addierer 5.6 mit einer in 5.5 generierten, ebenfalls in einer besonderen logarithsmischen Form dargestellten,
abklingenden Exponentialfunktion derart verknüpft, daß am Ausgang dieses Addierers eine wiederum
logarithmisch dargestellte abklingende Sinusschwingung entsteht. Dieses Signal wird in dem anschließenden
Addierer 5.7 mit der logarithmierten Amplitude A bewertet und durchläuft schließlich eine Delogarithmiereinheit
5.8, so daß es am Ausgang eine Form annimmt, wie sie in F i g. 3c dargestellt ist.
Die Erzeugung der Sinusschwingung geht im einzelnen wie folgt vor sich:
In einem digitalen Speiche-baustein (5.4) ist die positive Halbwelle einer Sinusfunktion mit z. B.
/j/2 = 2a-' äquidistanten diskreten Abtastwerten in
Form ihrer negativen Logarithmen zur Basis 2 mit 4 Jßit
Exponent und 4 Bit Mantisse abgespeichert (siehe Fig.6).
Die Adressierung dieses Speichers erfolgt über eine a-l = 10 Bits breite Adreßleitung (5.3), die von den
niederwertigeren Bits eines a = 11 Bits breiten Addierers
gespeist wird. Wird nun diese Adresse im Takte einer Abtastfrequenz von z.B. /,,6, = 8kHz jeweils um
eine Schrittweite von k Adreßschritten dadurch erhöht, daß bei jedem Takt zu dem im Register 5.2
zwischengespeicherten Adreßwert des vorhergehenden Taktes die Steuergröße k addiert wird, so entstehen am
Ausgang des Speicherbausteines 5.4 die Abtastwerte einer betragsmäßig logarithmierten und negierten
Sinusschwingung der Frequenz
F =
abt
Das Vorzeichen des jeweiligen Abtastwertes bestimmt sich aus dem Wert des hochwertigsten, nicht
mehr zur Adresse des Speicherbausteines gehörenden Bits des Addiererausganges, wobei 0 positive und 1
negative Werte anzeigt. Übersteigt der Wert am Addiererausgang 2"-\ so entsteht ein Überlauf, der
aber unberücksichtigt bleibt, so daß sich die Adreßzählung entsprechend der Periodizität der zu erzeugenden
Sinusschwingung zyklisch wiederholt. Die wesentlichen Vorteile der hier gewählten negativen logartihmischen
Darstellung der Signale bestehen einmal darin, daß die erforderlichen multiplikativen Signalverknüpfungen
zwischen der abklingenden Exponentialfunktion e--Tß*r,
der Sinusschwingung sin 2nFkTund der Formantatnplitude
A zu einfachen Additionen werden, zum anderen wird die logarithmierte und negierte Exponentialfunktion
selbst zur einfachen linearen Rampenfunktion (siehe F i g. 7), deren Steigung direkt der gewünschten
Formantbandbreite proportional zu wählen ist. Diese Rampenfunktion läßt sich sehr leicht durch z. B.
laufende Aufaddierung einer konstanten Größe erzeugen, die im Beispiel = 1 für eine Formantbandbreite von
ca. 50 Hz und = 3 für eine Formantbandbreite von ca. 150 Hz ist. Treten bei den Additionen der Logarithmen
Überläufe auf, so wird auf die größte, mit 8 Bits darstellbare Zahl, nämlich 255 begrenzt. Bei der
Delogarithmierung über die Delogarithmierliste 5.8 wird dieser Zahl der Wert 0 zugeordnet.
Fig.4 zeigt, wie mit jedem der im Abstand T=Mf0
(fo = Sprachgrundfrequenz) auftretenden Impulse der stimmhaften Anregung eine neue exponential abklingende
Sinusschwingung beginnt. Entsprechend muß in der Einrichtung nach Fig.5 zum Zeitpunkt des
Auftretens eines solchen Pitchimpulses zum einen die Adresse der Sinusliste auf einen bestimmten Startadreßwert
voreingestellt werden und zum anderen die Rampenfunktion wieder auf Null zurückgesetzt werden.
F i g. 8 läßt den exakten Verlauf des Ausgangssignals des Addierers 5.6 in F i g. 5 negierter und delogarithmierter
Darstellung erkennen. Es ist deutlich zu sehen, daß immer dann, wenn die Sinusschwingungen innerhalb
einer Sprachgrundfrequenzperiode nicht vollständig abgeklungen ist, und das ist der Regelfall für die
schmalbandigen Formanten, und wenn die Formantmit; tenfrequenz F nicht, ein ganzzahliges Vielfaches der
halben Sprachgrundfreauenz Z0 ist, Phasensprünge zu
den Zeitpunkten des Pitchimpulses auftreten, die sich akustisch als Störgeräusche bemerkbar machen.
Deshalb ist in Weiterbildung der Erfindung eine Korrektureinrichtung vorgesehen, die zum Zeitpunkt
des Pitchimpulses, abhängig von der momentanen Amplitude der abklingenden Schwingung, einen Startadreßwert
zur Voreinstellung der Adresse der Sinusliste 5.4 in F i g. 5 derart erzeugt, daß die neue Schwingung
eine positive oder negative Phasenverschiebung in genau dem Maße erfährt, das erforderlich ist, um an der
Übergangsstelle einen Sprung zu vermeiden (siehe gestrichelte Linie in F i g. 8).
Diese Korrektureinrichtung kann z. B. so realisiert werden, daß das Ausgangssignal von Addierer 5.6 in
F i g. 5 als Maß für den Betrag und das hochwertigste Bit von Addierer 5.1 als Vorzeichen der abklingenden
Sinusschwingung zur Adressierung einer in einem digitalen Speicherbaustein abgespeicherten Korrekturliste
5.10 verwendet wird, wobei diese Korrekturliste derart beschaffen ist, daß unter der jeweiligen Adresse
immer der entsprechende, die Phasenverschiebung verursachende, Startadreßwert für die Sinusliste ausgelesen
und damit die Adresse der Sinusliste voreingestellt werden kann. Nach Abschluß aller Signalverknüpfungen
wird das so entstandene Signal, welches in negativ logarithmischer Form das Ausgangssignal eines Parallelzweiges
des Formantsynthetisators nach F i g. 2 darstellt, delogarithmiert. Unter anderem eignet sich
dazu eine in einem digitalen Speicherbaustein (5.8) abgespeicherten Delogarithmiertabelle. Dabei ergeben
das mit 8 Bits logarithmierte Signal und ein Vorzeichenbit die Adresse, und die mit 12 Bits einschließlich
Vorzeichen abgespeicherten Werte das Ausgangssignal.
Das Vorzeichenbit der Adresse ist dabei aus dem hochwertigsten Bit am Ausgang von Addierer 5.1,
welches das Vorzeichen der Sinusschwingung repräsentiert, und dem Vorzeichenbit des in Vorzeichen und
logarithmiertem Betrag dargestellten Formantamplitudenwertes A, derart zu bilden, daß diese beiden binären
Zeichen per »exclusiv-oder« verknüpft werden.
Eine Einrichtung zur erfindungsgemäßen Erzeugung von rauschähnlichen Signalen für den Aufbau stimmloser
Laute, die solchen Signalen, weiche sich durch Filterung einer Rauschquelie, entsprechend F i g. 2,
erzeugen lassen, äquivalent sind, zeigt F i g. 9.
Das dabei angewandte Grundprinzip verdeutlicht Fig. 10. Ein mit einer Grenzfrequenz von B/2 gleich
z. B. 75 Hz tiefpaßgefiltertes weißes Rauschsignal mit einem spektralen Verlauf vergleichbar 10.1 wird durch
Multiplikation mit einer Sinusschwingung veränderlicher Frequenz amplitudenmoduliert. Die Spektren
dieser Trägerfrequenz F(10.2) und des dabei entstehenden Signals mit oberem (10.3) und unterem (10.4)
Seitenband sind ebenfalls in F i g. 10 eingezeichnet. Wie
Fig.9 zeigt, läßt sich diese Modulation einschließlich
einer anschließenden Bewertung mit einem Amplitudenfaktor A ebenfalls mit der schon für die Erzeugung
stimmhafter Laute in F i g. 5 dargestellten Vorrichtung erzeugen, wenn an Stelle der Rampenfunktion (5.5) als
einer der Summanden Abtastwerte eines tiefpaßgefilterten, logarithmierten und negierten Rauschsignals
dem Addierer 5.6 zugeführt werden. Dieses Rauschsignal kann z. B. dadurch erzeugt werden, daß, vergleichbar
der Erzeugung der Sinusschwingung, ein mit einer geringsten Grenzfrequenz von z.B. fgmi„ = 25 Hz tiefpaßgefiltertes
Rauschsignal mit der Abtastfrequenz fub,
abgetastet, digitalisiert, logarithmiert, negiert und in einem digitalen Speicherbaustein abgespeichert wird.
Ein Rauschsignal einer gewünschten Grenzfrequenz k ■ fgmin, die in beliebiges Ganzzahliges von 25 Hz
beträgt, entsteht dann, wenn nacheinander nur jeder /c-te Wert aus dem Speicher ausgelassen wird. Es genügt
zur Erzeugung natürlich klingender Sprache, wenn insgesamt nur ein Bruchteil einer Sekunde des
Rauschsignals in oben beschriebener Weise abgespeichert und zyklisch wiederholend ausgelesen wird. Damit
sich die Periodendauer dieses Rauschsignals auch bei den höheren Grenzfrequenzen nicht verringert, ist es
zweckmäßig, als Anzahl der abgespeicherten Abtastwerte eine Primzahl zu wählen.
Um das vollständige Sprachsignal zu erhalten, müssen, wie Fig. 2 zeigt, alle Teilsprachsignale der
einzelnen Filterzweige aufsummiert werden. Diese Summierung läßt sich besonders dann sehr einfach
gestalten, wenn eine solche Einrichtung nach F i g. 5 und 9 für die E.-zeugung aller Teilsignale im zeitlichen
Multiplex betrieben wird. In diesem Fall ist es nur erforderlich, die η zeitlich aufeinanderfolgenden Teilsignale
am Ausgang der Delogarithmierliste aufzuaddieren, wobei dann der nach η Additionen erhaltene
Summenwert das vollständige Sprachsignal repräsentiert
Zur akustischen Wiedergabe muß dieses digitale Sprachsignal noch mittels Digital-Analog-Wandler in
ein analoges Signal überführt werden und kann dann nach Tiefpaßbegrenzung auf die halbe Abtastfrequenz
fabt/2 und Verstärkung einem Lautsprecher zugeführt
werden.
Hierzu 8 Blatt Zeichnungen
Claims (5)
1. Verfahren zur Sprachsynthese nach dem Formantvocoderprinzip, bei dem für den Aufbau der
stimmhaften Laute gedämpfte Sinusschwingungen verschiedener Frequenz und zur Erzeugung stimmloser
Laute ein Rauschsignal verwendet werden und bei dem beide Lauttypen innerhalb derselben
Einrichtung einer amplitudenmäßigen Bewertung entsprechend den Formantamplituden unterworfen
werden, dadurch gekennzeichnet, daß innerhalb der Anordnung eine oder mehrere, in ihrer
Frequenz steuerbare, den Formantfrequenzen entsprechende Sinusschwingungen (5.1, 5.2, 5.4 bzw.
9.1,9.2,9.4) erzeugt werden und diese entweder
a) zum Aufbau stimmhafter Laute im Rhythmus einer der Pitchfrequenz des zu nynthetisierenden
Sprachsignals entsprechenden Pitchimpulsfolge mit einer abklingenden Exponentialfunktion
(5.5) zur Erzeugung einer der Pitchimpulsfolge entsprechenden Folge von exponentiell
abklingenden Sinusschwingungen oder
b) zum Aufbau stimmloser Laute mit einem tiefpaßgefilterten weißen Rauschsignal (9.5) zur
Erzeugung eines durch die Sinusschwingung amplitudenmodulierten Rauschsignals verknüpft
(5.6 bzw. 9.6) werden. ;
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß zur Erzeugung der ungedämpften
Sinusschwingung entsprechend der Formantfrequenz Fnach Betrag und Vorzeichen für den Betrag
schrittweise jeweils der m-te Abtastwert einer mit /7/2 äquidistanten Abtastwerten gespeicherten Sinushalbwelle
(5.4 bzw. 9.4) entsprechend s'\n(2nk/n) mit k=0...n/2 und n = 2" und a = ganzzahlig, mit
einer Folgefrequenz f, zyklisch ausgelesen wird und diese Abtastwerte aneinandergereiht werden, wobei
eine mit a Stellen binar dargestellte Größe s bei
jedem Schritt um
F- η
f,
erhöht wird, m durch die a— 1 geringstwertigen
Stellen von * dargestellt wird, bei der Erhöhung von 5 jedesmal im Falle 5=2" das überlaufende Bit
unberücksichtigt bleibt, für das Vorzeichen die hochwertigste Stelle von 5 ausgewertet wird und für
die Erzeugung stimmhafter Laute bei Auftreten eines Pitchimpulses s zu Null oder auf einen
Startwert Ssl gesetzt wird.
3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß die abgespeicherten Abtastwerte
der positiven Sinushalbwelle, die Abtastwerte der abklingenden Exponentialfunktion und die
Abtastwerte des tiefpaßgefilterten Rauschsignals in Form ihrer positiven oder negativen Logarithmen
zur Basis 2 vorliegen und daß damit die oben angesprochenen Verknüpfungen zu Additionen (5.6
bzw. 9.6) werden.
4. Verfahren nach Anspruch 1 und 3, dadurch gekennzeichnet, daß die für die amplitudenmäßige
Bewertung entsprechend der Formantamplituden erforderlichen Steuergrößen ebenfalls in logarithmischer
Form mit der Basis 2 vorliegen, so daß die
Bewertung durch eine einfache Addition erfolgen kann (5.7 bzw. 9.7).
5. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß zur Erzeugung des tiefpaßgefilterten
weißen Rauschsignals einer vorgebbaren Grenzfrequenz B/2 jeweils der m-te Abtastwert eines mit
einer ersten Folgefrequenz /, ι äquidistant abgetasteten,
mit /7=2" (a ganzzahlig) Abtastwerten gespeicherten und mit einer kleinsten Grenzfrequenz von
b/2 tiefpaßgefilterten weißen Rauschsignals (9.5) mit einer zweiten Folgefrequenz fn zyklisch ausgelesen
und aneinandergereiht wird, wobei m binär dargestellt ist und bei jedem Schritt um
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| DE19762650101 DE2650101C2 (de) | 1976-10-30 | 1976-10-30 | Verfahren zur Sprachsynthese nach dem Formantvocoderprinzip |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| DE19762650101 DE2650101C2 (de) | 1976-10-30 | 1976-10-30 | Verfahren zur Sprachsynthese nach dem Formantvocoderprinzip |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| DE2650101A1 DE2650101A1 (de) | 1978-05-11 |
| DE2650101C2 true DE2650101C2 (de) | 1984-01-19 |
Family
ID=5992199
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| DE19762650101 Expired DE2650101C2 (de) | 1976-10-30 | 1976-10-30 | Verfahren zur Sprachsynthese nach dem Formantvocoderprinzip |
Country Status (1)
| Country | Link |
|---|---|
| DE (1) | DE2650101C2 (de) |
Families Citing this family (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS6017120B2 (ja) * | 1981-05-29 | 1985-05-01 | 松下電器産業株式会社 | 音素片編型音声合成方式 |
| FI103233B1 (fi) * | 1997-08-15 | 1999-05-14 | Nokia Telecommunications Oy | Menetelmä halutun taajuuden omaavan signaalin generoimiseksi ja taajuussyntetisaattori |
Family Cites Families (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CH238417A (de) * | 1941-06-20 | 1945-07-15 | Philips Nv | Verfahren und Vorrichtung zur Übertragung von Sprache auf elektrischem Wege. |
-
1976
- 1976-10-30 DE DE19762650101 patent/DE2650101C2/de not_active Expired
Also Published As
| Publication number | Publication date |
|---|---|
| DE2650101A1 (de) | 1978-05-11 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| DE2524497C3 (de) | Verfahren und Schaltungsanordnung zur Sprachsynthese | |
| DE69228211T2 (de) | Verfahren und Apparat zur Handhabung von Höhe und Dauer eines physikalischen Audiosignals | |
| DE2431161C2 (de) | Tonerzeugungseinrichtung für ein elektronisches Musikinstrument | |
| DE2535344C2 (de) | Einrichtung zum elektronischen Erzeugen von Klangsignalen | |
| DE69033510T2 (de) | Numerischer sprachkodierer mit verbesserter langzeitvorhersage durch subabtastauflösung | |
| DE2636032C3 (de) | Elektrische Schaltungsanordnung zum Extrahieren der Grundschwingungsperiode aus einem Sprachsignal | |
| DE69317802T2 (de) | Verfahren und Vorrichtung für Tonverbesserung unter Verwendung von Hüllung von multibandpassfiltrierten Signalen in Kammfiltern | |
| DE3019823C2 (de) | ||
| DE69014680T2 (de) | Einrichtung zur Stimmensynthese. | |
| DE3006339C2 (de) | Sprachsyntesizer | |
| DE69727503T2 (de) | System und verfahren zur tonsynthese mittels einer längenmodulierten digitalen verzögerungsleitung | |
| DE1622162B2 (de) | Verfahren zum verdoppeln der frequenz eines saegezahnsignals und anordnung zur durchfuehrung des verfahrens | |
| DE2650101C2 (de) | Verfahren zur Sprachsynthese nach dem Formantvocoderprinzip | |
| DE2513127C2 (de) | Verfahren zum künstlichen Erzeugen eines musikalischen Klangs | |
| DE3101590C2 (de) | Anordnung zum Erzeugen eines Sprachsignals | |
| DE10023157A1 (de) | Vorrichtung und Verfahren zum Verarbeiten der Phaseninformation eines akustischen Signals | |
| DE3037276C2 (de) | Tonsynthesizer | |
| DE2826818C2 (de) | Verfahren und Vorrichtung zum Erzeugen eines künstlichen Durchschnitts-Sprechsignals | |
| DE3732047C2 (de) | ||
| DE2051589A1 (de) | Anordnung zur Synthese eines Signals | |
| DE69519086T2 (de) | Sprachsynthese | |
| DE2826570C2 (de) | ||
| DE2904426A1 (de) | Analog-sprach-codierer und decodierer | |
| DE10010037B4 (de) | Verfahren zur Rekonstruktion tieffrequenter Sprachanteile aus mittelhohen Frequenzanteilen | |
| EP1755110A2 (de) | Verfahren und Vorrichtung zur adaptiven Reduktion von Rausch- und Hintergrundsignalen in einem sprachverarbeitenden System |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| OGA | New person/name/address of the applicant | ||
| OD | Request for examination | ||
| D2 | Grant after examination | ||
| 8364 | No opposition during term of opposition | ||
| 8339 | Ceased/non-payment of the annual fee |