WO2009010358A1

WO2009010358A1 - Verfahren zur spracherkennung

Info

Publication number: WO2009010358A1
Application number: PCT/EP2008/057646
Authority: WO
Inventors: Michael Wandinger; Jesus Fernando Guitarte Perez; Bernhard Littel
Original assignee: Siemens AG; Siemens Corp
Current assignee: Siemens AG; Siemens Corp
Priority date: 2007-07-18
Filing date: 2008-06-18
Publication date: 2009-01-22
Anticipated expiration: 2010-01-18
Also published as: CN101755301A; US8527271B2; US20100286984A1; DE102007033472A1; EP2176858B1; CN101755301B; EP2176858A1

Abstract

Die Erfindung betrifft ein Verfahren zur Spracherkennung einer zu erkennenden Äußerung (A), welche mehrere zu erkennende Außerungsteile (A1-A5) aufweist, wobei eine Teilspracherkennung (S1) an einem ersten ausgewählten Außerungsteil (A1) erfolgt und in Abhängigkeit von einer durch die Teilspracherkennung (S1) erkannten Auswahl von Treffern für den ersten Außerungsteil (A1) eine Spracherkennung (S2) an dem ersten (A1) und weiteren Außerungsteilen (A2-A5) der Äußerung (A) durchgeführt wird.

Description

Beschreibung

Verfahren zur Spracherkennung

Die vorliegende Erfindung betrifft ein Verfahren zur Spracherkennung an Äußerungen mit mehreren Außerungsteilen. Die Erfindung betrifft ferner eine Spracherkennungsvorrichtung, welche zur Durchfuhrung eines entsprechenden Verfahrens geeignet ist sowie ein Computerprogrammprodukt, welches die Durchfuhrung eines Spracherkennungsverfahrens auf einer programmgesteuerten Spracherkennungsvorrichtung veranlasst.

Verfahren zur Spracherkennung als Ergänzung für Mensch- Maschine-Schnittstellen finden immer breitere Anwendungsfel- der. Die Befehlserkennung oder Auswahl von Eintragen aus Ad- ressbuchern bei mobilen Endgeraten, wie beispielsweise Mobiltelefonen, ist mittlerweile ein Standardfunktionsumfang. Insbesondere auch bei Kraftfahrzeugen werden Spracherkennungs- systeme eingesetzt, um z . B. Start- und Zielvorgaben für Na- vigationseinrichtungen zu erfassen.

Gebrauchliche Spracherkennungsverfahren basieren zum Beispiel auf sogenannten Hidden-Markov-Modellen, die zwar eine spre- cherunabhangige Spracherkennung ermöglichen, jedoch einen ho- hen Rechenaufwand bedingen. Da insbesondere bei Kraftfahrzeugen häufig sogenannte eingebettete Systeme bzw. Embedded Systems als Rechner zum Einsatz gelangen, welche nur begrenzte Rechen- und Speicherressourcen aufweisen, müssen häufig vereinfachte Spracherkennungen durchgeführt werden. Insbesondere die Einschränkung des Suchraums für die zu identifizierenden Suchbegriffe fuhrt in der Regel zu geringeren Anforderungen an die Rechenleistung und Speicherkapazitäten. Allerdings geht eine entsprechende Suchraumeinschrankung und damit Ersparnis an Ressourcen häufig einher mit einer weniger zuver- lassigen Spracherkennung und/oder einer weniger komfortablen Bedienung durch den Nutzer. In der DE 102 07 895 Al ist z. B. ein Verfahren zur Spracherkennung beschrieben, bei dem eine stufenweise Spracherkennung für die Eingabe von mehrteiligen Äußerungen bzw. Befehlen vorgeschlagen wird. Dort ist vorgesehen, beispielsweise bei der Eingabe eines Stadtenamens und darauffolgender Eingabe eines Straßennamens zunächst eine Spracherkennung für eine Einzelaußerung mit dem gesprochenen Straßennamen vorzunehmen, welche dem Benutzer auf einem Display als Trefferliste angezeigt wird. Nach Quittierung durch den Benutzer kann dann ein auf den Stadtenamen abgestimmtes zweites Vokabular für eine weitere Spracherkennung bestimmt werden, welches einen geringeren Speicherbedarf bedingt als die Kombination von Stadtenamen und Straßennamen. Nachteilig ergibt sich jedoch, dass der Benutzer zunächst das Erkennungsergebnis für den Stadte- namen registrieren muss und manuell eine Auswahl aus der Trefferliste vornehmen muss.

Ferner ist es besonders wünschenswert, eine vollständige Adresseingabe, welche z. B. den Stadtenamen, den Straßennamen sowie eine Hausnummer umfasst, in einem einzigen für den Nutzer wahrnehmbaren Schritt mittels einer Spracherkennung zu erkennen und dem Benutzer direkt eine Auswahl von kompletten Zieladressen anzuzeigen. Üblicherweise geht eine entsprechende Verlängerung der zu erkennenden Äußerung wegen der vielen Außerungsteile (Stadtenamen, Straßennamen, Hausnummer) mit erheblich höheren Forderungen an Speicher- und Rechenleistungen der entsprechenden Spracherkennungsvorrichtung einher. In der Vergangenheit wurden deshalb möglichst nur kurze Befehle oder Befehlssequenzen durch eine Spracherkennung erkannt und dem Nutzer dargestellt.

Es ist daher eine Aufgabe der vorliegenden Erfindung, ein verbessertes Verfahren zur Spracherkennung bereitzustellen.

Diese Aufgabe wird durch ein Verfahren zur Spracherkennung gemäß Patentanspruch 1 gelost. Demgemäß ist ein Verfahren zur Spracherkennung einer zu erkennenden Äußerung mit mehreren zu erkennenden Außerungsteilen vorgesehen. Dabei wird zunächst eine Teilspracherkennung an einem ersten ausgewählten Außerungsteil durchgeführt und in Abhängigkeit von einer durch die Teilspracherkennung erkannten Auswahl von Treffern für den ersten Außerungsteil eine Spracherkennung an dem ersten und weiteren Außerungsteilen der Äußerung durchgeführt.

Obwohl die zu erkennende Äußerung mehrere verschiedene Außerungsteile umfasst, wie beispielsweise der Ausspruch einer Zieladresse aus Stadtenamen plus Straßennamen plus Hausnummer, ist es nicht notwendig, dass der Nutzer bestimmte Außerungsteile oder erkannte Außerungsteile quittiert. Da zu- nächst ein Außerungsteil aus der gesamten Äußerung ausgewählt wird, kann kontextabhängig ein kleineres Vokabular für die Teilspracherkennung, beispielsweise im Wesentlichen auf Stadtenamen bezogen, verwendet werden. Der entsprechende Kontext ergibt sich aus dem für den Nutzer nicht wahrnehmbaren Zwi- schenergebnis der ersten Teilspracherkennung. Die erkannte

Auswahl von Treffern durch die Teilspracherkennung ermöglicht es zum Beispiel, die gesamte Äußerung erneut einer Spracherkennung zu unterziehen, welche ein gegenüber allen möglichen Kombinationen aus Stadtenamen, Straßennamen und Hausnummern wegen der Vorauswahl durch die Teilspracherkennung ein erheblich reduziertes Vokabular benotigt. Damit geht auch eine geringere Anforderung an Speicher- und Rechenkapazitat einher.

In einer Variante des Verfahrens wird der erste Außerungsteil einer Teilspracherkennung anhand eines Hidden-Markov-Modells unterzogen. Dabei werden die übrigen Außerungsteile für die Teilspracherkennung mit Fulldaten überdeckt. Diese Fulldaten, welche auch als Mulldaten oder Garbage-Daten bezeichnet werden, bedingen nur einen geringen Speicher- und Rechenbedarf für die Erzeugung eines entsprechenden Vokabulars gemäß einem Hidden-Markov-Modell . Falls beispielsweise eine zu erkennende Teilaußerung am Beginn der Äußerung steht, wie es bei der Eingabe einer Adresse durch den Stadtenamen der Fall ist, kann eine bestimmte Anzahl von zeitlich ersten erfassten Phonemen im Rahmen eines Hidden-Markov-Modells mit bekannten Stadtenamen einer Datenbank trainiert werden, wahrend die weiteren erfassten Außerungsteile mit Mull oder Fullphonemen trainiert werden. Im zweiten Spracherkennungsschritt können die im ersten Teilspracherkennungsschritt mit Fulldaten belegten Außerungsteile durch Suchworte aus dem Suchwortschatz, beispielsweise Straßennamen, ersetzt werden. In dem zweiten Spracherkennungsschritt, in dem die gesamte Äußerung einer Spracherkennung unterzogen wird, kann das Vokabular daher bereits erheblich eingeschränkt werden, da nur zu der Auswahl von Treffern für den ersten mittels der Teilspracherkennung erkannten Außerungsteil konsistente potenzielle Suchbegriffe durch das Hidden-Markov-Modell modelliert werden müssen. Prinzipiell spielt es dabei keine Rolle an welcher zeitlichen Position der erste Außerungsteil vorliegt, welcher der ersten Spracherkennungsstufe zugrunde gelegt wird. Auch eine Äußerung, bei der der erste zu erkennende Außerungsteil von anderen Außerungsteilen umgeben ist, kann durch ein Erfindungsge- maßes Spracherkennungsverfahren verarbeitet werden.

Es ist ferner möglich, den ersten Außerungsteil durch eine Bestimmung des zeitlichen Energieverlaufs der gesamten Äußerung zu erkennen und der Teilspracherkennung zu unterziehen. In der Regel sind die Außerungsteile durch detektierbare Sprechpausen voneinander trennbar, sodass eine besonders niedrige Energie zu bestimmten Zeitpunkten der Äußerung als Indikator für Zwischenräume zwischen Außerungsteilen dienen kann. Es können auch bekannte Verfahren der Sprachaktivitats- erkennung zur Ermittlung des ersten Außerungsteils in der Äußerung verwendet werden.

Vorzugsweise umfasst das Verfahren zur Spracherkennung einen oder mehrerer der folgenden Verfahrensschritte:

- Aufnehmen einer Äußerung, welche mehrere Außerungsteile umfasst; - Bereitstellen eines ersten Vokabulars, welches eine erste Liste von Suchworten, Phonemkombinationen und/oder Ubergangs- wahrscheinlichkeiten umfasst;

- Durchfuhren einer Teilspracherkennung für den ausgewählten ersten Außerungsteil der aufgenommenen Äußerung mittels dem bereitgestellten ersten Vokabular zum Bestimmen einer Auswahl von Treffern aus der Liste von Suchworten;

- Bereitstellen eines zweiten Vokabulars, in Abhängigkeit von der Auswahl von Treffern, wobei das zweite Vokabular eine Liste von Suchwortkombinationen von mehreren Suchworten, Phonemkombinationen und/oder Ubergangswahrscheinlichkeiten umfasst; und

- Durchfuhren einer Spracherkennung für die aufgenommene Äußerung mittels dem zweiten Vokabular zum Bestimmen einer Auswahl von Treffern aus der Liste von Suchwortkombinationen.

Das Aufnehmen der Äußerung kann beispielsweise durch ein Mikrophon und einen nachgeschalteten Analog-/Digitalwandler erfolgen, welcher die digitale Äußerung weiteren Recheneinheiten, beispielsweise einer CPU in einem Embedded System, bereitstellt. Das erste Vokabular wird z. B. durch eine Steuer- oder Recheneinrichtung, welche auf eine Datenbank mit Suchworten und entsprechenden Phonemtranskriptionen der Suchworte zugreift, erzeugt werden. Die Bereitstellung eines Spracher- kennungsvokabulars erfordert üblicherweise eine hohe Rechenleistung und/oder umfangreichen Speicherplatz zum Zwischen- speichern des für eine Spracherkennung, welche beispielsweise softwareimplementiert vorliegt, les- und verarbeitbaren Vokabulars .

Bei dem zweiten Spracherkennungsschritt, welcher entgegen dem Stand der Technik nicht durch eine Verifizierung oder Quittierung durch den Benutzer initiiert wird, werden weitere Informationen zu den Treffern aus der Teilspracherkennung einem zweiten Vokabular hinzugefugt. Dies kann z. B. die Erzeugung eines Vokabulars umfassen, welches den erkannten besten Stad- tenamen aus dem Teilerkennungsschritt entsprechende konsistente Straßennamen zufugt.

Es ist z. B. denkbar, dass eine Datenbank vorliegt, welche alle Stadtenamen eines Landes umfasst sowie alle Straßennamen und die zugehörigen Hausnummern. Das erste für die Teilspracherkennung notwendige Vokabular musste neben Fulldaten lediglich auf die Städte- oder Ortsnamen als Oberbegriff zugreifen. Als weitere Begriffe in dem zweiten Spracherken- nungsschritt werden dann als Unterbegriffe Straßennamen und Hausnummern zugefugt. Allerdings sind nicht alle der Datenbank entnehmbare Straßennamen für die Spracherkennung relevant, sondern lediglich diejenigen, welche den Stadtenamen als Oberbegriffe zugeordnet sind und welche als Treffer von der Teilspracherkennung identifiziert wurden.

Vorteilhafterweise wird bei einer Variante des erfindungsge- maßen Verfahrens zur Spracherkennung das erste Vokabular aus dem Speicher geloscht, bevor das zweite Vokabular eingelesen wird. Es wird somit eine effiziente Speichernutzung insbesondere bei Embedded Systems gewahrleistet.

Um die Ressourcen eines entsprechenden Spracherkennungssys- tems effizienter zu nutzen, sieht eine weitere Variante des Spracherkennungsverfahrens vor, dass bei der zunächst durchgeführten Teilspracherkennung ermittelte Eigenschaften der Äußerung und/oder des Außerungsteils bei der Spracherkennung der weiteren Außerungsteile und/oder der gesamten Äußerung wiederverwendet werden.

Insbesondere kommen bei der Teilspracherkennung oder Vokabularerzeugung berechnete MFCC-Merkmale und/oder Emissionswahrscheinlichkeiten in Frage. Unter MFCC (= MeI Frequency Cepstral Coefficients) werden berechenbare Merkmale von er- fassten Audioaußerungen verstanden. Die Bestimmung von MFCCs erfolgt nach allgemein bekannten Verfahren, welche von einer entsprechenden programmierten CPU des Spracherkennungssystems vollzogen werden können. Eine Wiederverwendung in dem zweiten Spracherkennungsschritt an der gesamten Äußerung z. B. reduziert damit den Rechenaufwand der Spracherkennung. Ebenso können Varianten oder Derivate der MFCCs verwendet werden.

Die Erfindung schafft ferner eine Spracherkennungsvorrichtung mit den Merkmalen des Patentanspruchs 18.

Die Spracherkennungsvorrichtung weist vorzugsweise eine Steu- ereinrichtung und eine Speichereinrichtung auf, welche an eine Datenbankeinrichtung gekoppelt sind. Dabei stellt die Datenbankeinrichtung Suchworte eines Vokabulars und/oder eine phonemische Transkription der Suchworte bereit. Die Datenbankeinrichtung kann z. B. als Wechseldatentrager ausgestal- tet sein, wie z. B. eine DVD, SD-Speicherkarte, ein USB-

Stick, eine CD-ROM oder weitere bekannte Speichermittel. Entsprechende Datenbanken für Navigationssysteme oder andere Spracherkennungsanwendungen werden z. B. in einem SAMPA- Format vertrieben. Dabei steht SAMPA für Speech Assessment Method Phonetic Alphabet. Dies entspricht einem phonetischen Alphabet, welches eine maschinenlesbare Codierung als ASCII- Symbole von phonetischen Alphabeten darstellt.

Ferner liefert die Erfindung ein Computerprogrammprodukt, welches die Durchfuhrung eines vorgenannten Verfahrens zur Spracherkennung auf einer programmgesteuerten Spracherkennungsvorrichtung veranlasst. Dabei ist eine Realisierung des Computerprogrammprodukts beispielsweise in Form eines auf einem computerlesbaren Datenträger abgespeicherten Computerpro- gramms denkbar. Z. B. kommen CD-ROMs, Floppy-Disks, DVDs, USB-Sticks, Speicherkarten oder weitere Speichermittel in Frage sowie auch die Bereitstellung als herunterladbare Datei von einem Server.

Weitere vorteilhafte Ausgestaltungen der Erfindung und Weiterbildungen sind Gegenstand der Unteranspruche sowie der im Folgenden beschriebenen Ausfuhrungsbeispiele. Im Weiteren wird die Erfindung anhand von Ausfuhrungsbeispielen unter Be- zugnahme auf die beigelegten Figuren naher erläutert. Es zeigt dabei:

Figur 1 ein schematisches Blockdiagramm einer Spracher- kennungsvorrichtung;

Figur 2 ein Ablaufdiagramm einer ersten Variante des Verfahrens zur Spracherkennung;

Figur 3 ein Ablaufdiagramm einer zweiten Variante des

Verfahrens zur Spracherkennung;

Figur 4 eine schematische Darstellung einer mehrteiligen Äußerung;

Figur 5 schematisch eine hierarchische Struktur einer Suchwortdatenbank;

Figur 6a, 6b ein Beispiel für ein zeitliches Ablaufdiagramm in einer Spracherkennungsvorrichtung bei der

Durchfuhrung eines Verfahrens zur Spracherkennung .

In den Ausfuhrungen sind gleiche bzw. funktionsgleiche EIe- mente mit denselben Bezugszeichen versehen worden, sofern nichts anderes angegeben ist.

Die Figur 1 zeigt ein schematisches Blockdiagramm einer Spracherkennungsvorrichtung 1. Die Spracherkennungsvorrich- tung 1 kann z.B. als ein Embedded System für eine Automobilanwendung z. B. für ein Navigationssystem ausgeführt sein. Es ist eine Steuereinrichtung 2, beispielsweise ein Mikroprozessor oder eine CPU vorgesehen, welche vorzugsweise programmierbar ist und einen internen Speicher, zum Beispiel einen Pufferspeicher 13 aufweist. Ferner ist eine Speichereinrichtung 5 vorgesehen, welche z. B. einen RAM-Speicher 6 und einen ROM-Speicher 7 aufweist. Der ROM-Speicher kann z. B. das Betriebssystem oder Steuerprogramme für die CPU 2 aufweisen. Speicher 5 und CPU 2 sind miteinander gekoppelt, was in der Figur 1 als Kommunikations- und Datenbus 3 dargestellt ist. Es ist dabei denkbar, dass die Datenbank 4 beispielsweise im Kofferraum eines Fahrzeuges untergebracht ist und eine Daten- kommunikation zwischen der CPU 2 und der Datenbank 4 über ein Fahrzeugbussystem, wie z. B. dem I2C-Bus erfolgt. Es ist auch denkbar, dass bestimmte Datensatze in der Datenbank 4 zum Bilden eines Spracherkennungsvokabulars vorübergehend in dem RAM-Speicher 6 der Speichereinrichtung 5 übertragen wird.

An dem Kommunikations- und Datenbus 3 ist ferner ein Analog- /Digitalwandler 9 gekoppelt, an dem ein Mikrophon 8 angeschlossen ist. Eine Äußerung A wird somit vom Mikrophon 8 aufgenommen und vom Analog-/Digitalwandler 9 digitalisiert bereitgestellt. Die Steuereinrichtung bzw. CPU 2 koordiniert die Ablage im Speicher 5. Ferner kann die Spracherkennungs- vorrichtung 1 eine Eingabeeinrichtung 10 und Ausgabeeinrichtung 11 aufweisen. Dies ist z. B. in der Implementierung eines GUI (Graphic User Interface) verwirklicht. Als Eingabe- einrichtung kommt zum Beispiel eine Tastatur, ein Drehknopf oder sonstige haptische Eingabemittel in Frage. Als Ausgabeeinrichtung 11 ist z. B. ein Display oder aber auch eine Sprachausgabe möglich.

Insbesondere die CPU 2, der Speicher 5 und der Analog-

/Digitalwandler 9 zusammen mit einem geeigneten Datenkommunikationsbus 3 werden häufig als Embedded Systems implementiert. Dabei ist ein möglichst geringer Herstellungs- und Platzaufwand gewünscht, sodass eine entsprechende CPU oder Mikroprozessor üblicherweise mit einer Taktfrequenz von 300 bis 600 MHz betrieben wird. Denkbar sind jedoch auch andere Werte. Als RAM-Speicher 6 müssen häufig 64 bis 128 MB- Speicherelemente ausreichen. Diesen begrenzten Ressourcen hinsichtlich der Rechenkapazitat der CPU 2 und der Speicher- ressourcen 5 bedingen ein besonders ressourcensparendes Verfahren zur Spracherkennung. Ein sequenzielles Eingeben und Quittieren von einzelnen Außerungsteilen, wie z. B. zunächst die Stadt, und nach einer weiteren Eingabeaufforderung eine Adresse in Form des Straßennamens und der Hausnummer, ist jedoch umständlich, obwohl dadurch die Große des zu verwendenden Vokabulars bei der Spracherkennung begrenzt werden kann.

In der Figur 2 ist ein schematisches Ablaufdiagramm für ein verbessertes Verfahren zur Spracherkennung für mehrteilige Äußerungen schematisch dargestellt. Es ist dabei ein zweistufiges Verfahren illustriert, bei dem zunächst eine Teilspracherkennung im Schritt Sl oder in der Erkennungsstufe Sl erfolgt und anschließend eine Gesamtspracherkennung in der Folgestufe S2 durchgeführt wird.

Im ersten Schritt Sl wird die Erkennung auf einen Außerungsteil der Gesamtaußerung beschrankt und die übrigen Außerungsteile z. B. durch Mullmodelle oder Fulldaten überdeckt. Am Beispiel des Eingehens einer Zieladresse für ein Navigations- System werden im ersten Erkennungsschritt Sl über eine Teilspracherkennung nur die Stadtenamen im aktiven Vokabular gehalten. Die Straßennamen und Hausnummern werden durch Mullmodelle oder Fullphoneme modelliert. Dies kann z. B. im Rahmen eines Hidden-Markov-Modells erfolgen.

Bei einem Hidden-Markov-Modell (HMM) zur Spracherkennung werden Ubergangswahrscheinlichkeiten von einem Phonem zum nächsten in einer Abfolge von Phonemen betrachtet. Phoneme sind die kleinsten bedeutungsunterscheidenden Einheiten eines Sprachsystems. Ein Hidden-Markov-Modell ist dabei durch die Parameter λ = (A, B, π) charakterisiert, wobei A = {aij} die Ubergangswahrscheinlichkeiten von einem (verborgenen) Zustand i zum Zustand j, π = {τi_±} die Startwahrscheinlichkeiten für den Zustand i und B = [¹O₁] die Wahrscheinlichkeiten für eine Beobachtung i, wobei ein jeweiliger Zustand i eine Beobachtung O_t zum Zeitpunkt t emittiert. Bei dem Hidden-Markov- Spracherkennungsmodell wird eine Sequenz von Phonemen aufgezeichnet und die Wahrscheinlichkeit bestimmt, mit der gemäß eines HMMs der aufgenommene Phonemverlauf erzeugt werden kann. Jedes HMM entspricht dabei beispielsweise einer Klasse, sodass durch Auswahl der höchsten Wahrscheinlichkeit die aufgenommene Phonemsequenz einer Klasse bzw. einem Wort oder Wortfolge zugeordnet werden kann.

Mittels bekannter Hidden-Markov-Technologie lassen sich spre- cherunabhangige Spracherkennungen realisieren. Dazu werden Hidden-Markov-Modelle für die Phoneme einer Sprache trai- niert. Es werden dabei in der Regel große in der Umgebung für die Spracherkennung aufgenommene Suchworte, welche in Datenbanken aufgenommen werden, verwendet. Entsprechende Datenbanken weisen die Suchworte, wie die Stadtenamen und eine Transkription in Phoneme auf. Bekannt sind z. B. SAMPA- Transkriptionen. Bei üblichen Spracherkennungsalgorithmen werden die Phoneme dann kontextabhängig, z. B. über Triphone, modelliert. Das aktuelle Phonem wird dabei abhangig von den Vorganger- und Nachfolger-Phonemen unterschiedlich modelliert .

Üblicherweise wird das Vokabular für einen Spracherkennungs- algorithmus oder eine entsprechend eingerichtete Spracherken- nungseinrichtung, wie es beispielsweise in der Figur 1 eine durch ein Betriebssystem oder ein Steuerprogramm eingerichte- te CPU 2 ist, dynamisch generiert. Dazu ist zunächst notwendig, die Phonemabfolge der zu erkennenden Suchworte anzugeben und in eine für die Spracherkennung verstandliche Form zu kompilieren. D. h., die aus der Datenbank 4 entnommenen Phonemsequenzen der Suchworte werden in Zustandsfolgen umgewan- delt. Je großer dabei die Anzahl der Suchworte ist desto mehr Rechenaufwand ist bei der Vokabularerzeugung z. B. durch die CPU 2 zu vollziehen. Für die erste Spracherkennungsstufe, also der Schritt Sl der Teilspracherkennung, wird dies nur für beispielsweise die in Deutschland vorliegenden Stadtenamen durchgeführt. Dies sind etwa 70.000 Suchworte. Für die Gesamtspracherkennung in der zweiten Stufe bzw. im Schritt S2 wird erneut ein Erkennungsvokabular erzeugt, welches jedoch bei dem Beispiel der Zieladresseingabe nicht mehr alle mogli- chen Straßennamen und Stadtenamen sowie Hausnummern umfassen muss, sondern deutlich reduziert ist. In Deutschland existieren etwa 370.000 Straßennamen. Die erste Erkennungsstufe durch die Teilspracherkennung eines Straßennamens reduziert jedoch diese Anzahl von 370.000 Suchworten auf nur noch 200 bis 15.000 Worte. Werden beispielsweise N Treffer im ersten Schritt Sl ermittelt, wird im zweiten Schritt nur noch ein Vokabular für die Durchfuhrung einer Spracherkennung zusammengestellt, welches die für die N Trefferstadtenamen rele- vanten Straßennamen umfasst. Bei durchschnittlich 30 Straßen pro Stadtenamen ergeben sich bei N = 10 Treffern für die Städte Vokabulare zwischen 200 bis 15.000 Worten. Dabei wird Berlin als größte Stadt mit 13.000 Straßen berücksichtigt.

Beim zweiten Spracherkennungsschritt S2 für die Gesamtspracherkennung der erfassten Äußerung mit mehreren Außerungsteilen ist demnach in der Regel ein kleineres Vokabular notwendig als im ersten Teilspracherkennungsschritt Sl, da im zweiten Schritt S2 nur noch die N besten Stadtenamen berücksichtigt werden. Darüber hinaus lassen sich weitere logische Verknüpfungen zwischen Stadtenamen und zugehörigen Straßennamen in einer Grammatik berücksichtigen. Es ist z. B. möglich, dass in verschiedenen Städten, die verschiedene Stadtenamen aufweisen, zwar dieselben Straßennamen existieren, aber eine un- terschiedliche Anzahl von Hausnummern vorliegt. Derartige logische Verknüpfungen lassen sich in einer Grammatik für die Spracherkennung implementieren.

Um die Erzeugung von Erkennervokabularen weiter zu verbes- sern, ist es möglich, dass Straßenvokabulare für Stadtenamen, die eine besonders große Anzahl von Straßennamen zugeordnet haben bereits vorkompiliert und zwischengespeichert werden. Städte, die nur eine geringe Anzahl von Straßen, beispielsweise weniger als ein vorgebbarer Schwellwert aufweisen, ha- ben in der Regel kleinere Straßenvokabulare, die auch online im Betrieb der Spracherkennung erzeugt werden können. Bei vorkompilierten Straßenvokabularen ist jedoch ein schnellerer Zugriff seitens der CPU möglich. Ferner wird dadurch der Speicherbedarf des entsprechenden Spracherkennungssystems reduziert, da nur die besonders großen Vokabulare gespeichert werden, die kleineren allerdings direkt online durch Abfrage Der Phoneme aus der Datenbank erzeugt werden.

In der Figur 3 ist eine Variante eines zweistufigen Verfahrens zur Spracherkennung dargestellt. In einem ersten Schritt Tl wird die Äußerung aufgenommen. Dies kann z. B. im Ruckgriff auf die in der Figur 1 dargestellte Spracherkennungs- Vorrichtung durch das Mikrophon 8 mit dem Analog-

/Digitalwandler 9 erfolgen. Die entsprechenden Daten können digital im Speicher 5 und dabei vorzugsweise im RAM-Speicher 6 abgelegt werden. Die Speichervorgange können dabei von der CPU 2, welche programmierbar ausgestaltet ist und von einem Betriebssystem im ROM-Speicher 7 gesteuert ist, koordiniert werden .

Im Folgeschritt T2 wird ein Teilvokabular geladen bzw. online erzeugt. Dazu werden die Suchworte, beispielsweise Stadtena- men und deren entsprechende Phonemtranskription von der Datenbank 4 geladen und im Speicher 6 abgelegt. Anschließend wird ein entsprechendes Teilvokabular für die Durchfuhrung der eigentlichen Spracherkennung bzw. Teilspracherkennung im Schritt Sl erzeugt.

Wie bereits eingangs erläutert wurde, können bei der Durchfuhrung des Spracherkennungsalgorithmus, beispielsweise mittels einem HMM-Modell die Außerungsteile mit Fulldaten abgedeckt werden, an denen voraussichtlich die zunächst nicht re- levanten Straßennamen und Hausnummern vorliegen.

In der Figur 4 ist schematisch eine Äußerung A mit verschiedenen Außerungsteilen A1-A5 dargestellt. Die graphische Darstellung zeigt die Amplitude der vom Mikrophon aufgenommenen Schallwellen über die Zeit t. Der Nutzer gibt beispielsweise den vollständigen Suchbegriff "München Otto-Hahn-Ring Sechs" ein. Diese Adressangabe kann als fünfteilige Äußerung A auf- gefasst werden. Dabei entspricht der Stadtename "München" ei- nem ersten Außerungsteil Al, "Otto" einem zweiten Außerungsteil A2, "Hahn" einem dritten Außerungsteil A3, "Ring" einem vierten Außerungsteil A4 und die Hausnummer "Sechs" einem fünften Außerungsteil A5. Dabei dauert die sprachliche Ausga- be von "München" vom Zeitpunkt ti bis zum Zeitpunkt t₂, "Otto" vom Zeitpunkt t₂ bis t₃, "Hahn" vom Zeitpunkt t₃ bis t₄, "Ring" vom Zeitpunkt t₄ bis t₅ und "Sechs" vom Zeitpunkt t₅

Es gibt verschiedene Möglichkeiten, die Außerungsteile zu i- dentifizieren . Es kann z. B. ein HMM-Modell erzeugt werden, bei dem davon ausgegangen wird, dass der erste Außerungsteil Al einem Stadtenamen entspricht und damit ein Oberbegriff für die übrigen Außerungsteile, nämlich Straße und Hausnummer, darstellt. Es ist dabei z. B. möglich, sogenannte Garbage- Modelle zu erzeugen, die die Phoneme der Stadtenamen in der Datenbank, beispielsweise "München" und weitere Fulldaten- Phoneme aufweist. Z. B. können verschiedene Pfade für die Spracherkennung modelliert werden:

In der vollständigen Phonemsequenz, die der Äußerung entspricht, also der Eingabe einer vollständigen Zieladresse in einem Satz und ohne Unterbrechungen werden die Phonemanteile mit Fulldaten überdeckt, die voraussichtlich keinem Stadtenamen entsprechen. Dies kann in dem bezuglich der Figur 4 dargestellten Beispiel diejenigen Außerungsteile sein, die einer vorgegebenen Anzahl von Anfangsphonemen folgen. Durch den Aufbau eines entsprechenden HMM-Modells für die Spracherken- nung, bei dem nur die relevanten Außerungsteile, also der erste Außerungsteil Al, für den ersten Schritt relevant sind, berücksichtigt werden, kann ein viel kleineres Vokabular und damit ein geringerer Speicherplatz verwendet werden als für ein HMM-Modell, das alle Phoneme aller Außerungsteile A1-A5 berücksichtigen muss.

Es ist auch denkbar, dass der Beginn und das Ende der ver- schiedenen Außerungsteile A1-A5 durch eine Energiemessung der Äußerung zu bestimmen. Zwischen gesprochenen Worten tritt häufig eine Pause oder eine besonders geringe Energie des erzeugten Schalls auf. Dies ist in der Figur 4 insbesondere an den Zeitpunkten t_±, t∑, tz, t₄, t₅ und te der Fall. Die Bestim- mung derartiger Minima kann somit dazu dienen, die Grenzen zwischen verschiedenen Außerungsteilen zu bestimmen. Es sind jedoch auch weitere standardisierte Sprachaktivitatserkennun- gen bekannt. Zur Bestimmung von Wortgrenzen wird ein sogenanntes VAD (Voice Activity Detection) -Verfahren eingesetzt. Prinzipiell sind beliebige Methoden zur Bestimmung des jeweiligen Außerungsteils für den ersten Spracherkennungsschritt Sl möglich.

Übliche Spracherkennungsverfahren weisen hintereinanderge- schaltete Schritte wie Feature- oder Merkmalsberechnung, E- missionsberechnung und Suche auf. Bei der Merkmalsberechnung wird das erfasste Audiosignal in Merkmale umgewandelt, beispielsweise MFCC-Merkmale . Diese in der Regel standardisierten Merkmale können für die eigentliche Spracherkennung aus dem Audiosignal extrahiert werden. MFCCs können z. B. berechnet werden, indem das erfasste Audiosignal bzw. die erfasste Äußerung zunächst in Blocke oder Fenster unterteilt wird. An jedem Fenster wird dann eine Fourier-Transformation durchgeführt und ein Betragspektrum erzeugt. Das Betragspektrum wird logarithmisiert, um die menschliche Gehorwahrnehmung nachzubilden. Die in der Regel hohe Anzahl von entstehenden Frequenzbandern wird auf wenige, z. B. 40, zusammengefasst . Anschließend wird eine diskrete Kosinustransformation durchgeführt oder Hauptkomponenten-Analyse gemacht. Die Berechnung von MFCCs ist allgemein bekannt.

Im folgenden Spracherkennungsschritt werden die berechneten Merkmale, beispielsweise MFCCs, mit den durch das HMM erzeug- te Vektoren verglichen. Daraus ergibt sich ein Abstand oder ein Maß für die Abweichung von den Segmenten im HMM. Dies wird auch als Emission oder Emissionswahrscheinlichkeit bezeichnet. Das zugrundeliegende Vokabular für die Spracherken- nung weist Zustandsfolgen auf, die eine Aneinanderreihung der Segmente aufweist. Im letzten Suchschritt wird, um ein Erkennungsergebnis oder ein Treffer aus dem Vokabular bzw. den Suchwortschatz zu ermitteln, eine Suche auf Basis der Emissionen des Erkennungsvokabulars und gegebenenfalls einer Gram- matik oder einem Sprachmodell durchgeführt. Es ist z. B. eine Baumsuche möglich, aber auch andere Suchalgorithmen denkbar, um im Vokabular des HMM-Modells die erfasste Äußerung bzw. den erfassten Außerungsteil zu identifizieren.

Die Teilspracherkennung im Schritt Sl liefert daher eine

Trefferliste mit N Listenubereinstimmungen für den Stadtena- men. In der Figur 5 ist dies auf der linken Seite dargestellt. Als mögliche Treffer ergibt die Teilspracherkennung z. B. "München" Hl, "Munchlingen" H2 und weitere Eintrage bis "Munchhausen" HN.

Bezugnehmend auf die Figur 3 kann im Schritt T3 nun das Vokabular aus dem Speicher geloscht werden. Im Schritt T4 wird nun ein weiteres Vokabular für die zweite Stufe des Spracher- kennungsverfahrens erzeugt und in den Speicher eingeschrieben. Das entsprechende Erkennervokabular wird erzeugt, indem die den Stadtenamen der Treffer Hl-HN zugehörigen Straßennamen ausgelesen werden.

In der mittleren Spalte der Figur 5 werden für den ersten Treffer München Hl, M Straßennamen benotigt. In einer entsprechend hierarchisch organisierten Datenbank sind "München" Hl beispielsweise SNIl-SNlM Eintrage zugeordnet. Für den zweitbesten Treffer H2 "Munchlingen existieren in der Daten- bank O Straßennamen SN21-SN2O. Für den N-ten Treffer HN

"Munchhausen" liegen in der Datenbank SNNl-SNNP Eintrage vor. Ferner sind, um eine vollständige Spracherkennung der Zieleingabe "München Otto-Hahn-Ring 6" zu erkennen, noch die Hausnummern der jeweiligen Straßennamen SNIl-SNlM, SN21-SN2O und SNNl-SNNP notwendig. Dabei ist es nicht notwendig, für jeden Straßennamen die maximal mögliche Anzahl von Hausnummern für das Vokabular zu verwenden. Vielmehr kann beruck- sichtigt werden, dass beispielsweise die Arabellastraße SNIl in München 100 Hausnummern NB111-NB11Q mit Q = 100 aufweist. In einer anderen Stadt konnte eine andere Anzahl von Hausnummern möglich sein. Der Zweigweg SNlM in München Hl weist beispielsweise nur vier Hausnummern NB1M1-NB1MR mit R = 4 auf.

Analog wird das Vokabular für die Gesamtspracherkennung, also die gesamte Äußerung A nur mit Kombinationen von Suchworten, also Stadtenamen, Straßennamen und Hausnummern zusammengestellt und kompiliert, wie dies in Abhängigkeit von dem ers- ten Teilspracherkennungsergebnis, also den Treffern Hl-HN notwendig ist. Durch diese drastische Reduzierung des Erkennervokabulars für die Erkennung der gesamten Äußerungen A ist eine Implementierung mit oder auf ressourcenschwachen Rechnersystemen möglich. Zudem ist durch die Reduktion der zu u- bertragenden Daten zwischen der Datenbank 4 und dem Embedded System 14 auch die Transferzeit zur Initialisierung der Spracherkennung geringer.

Im folgenden Gesamtspracherkennungsschritt S2 wird dann bei- spielsweise über eine HMM-Spracherkennung ein entsprechendes Ergebnis mit Treffern erzielt. Dies wird im Schritt T5 z. B. dem Benutzer über eine Ausgabeeinrichtung, wie ein Display, eingezeigt. Durch den eingeschränkten Suchraum, also die speziell vorgegebenen reduzierten Vokabulare bei der Gesamt- Spracherkennung im Schritt S2 ist auch die Erkennungsrate besonders hoch, da unlogische oder nicht mögliche Kombinationen von Suchworten durch die spezielle Auswahl und Erzeugung des Erkennervokabulars in der zweiten Stufe ausgeschlossen oder zumindest unterdruckt werden.

Um die Rechenlast für die CPU 2 weiter zu reduzieren, kann ferner vorgesehen sein, dass bereits vorgenommene Berechnungen in der Teilspracherkennung des Schritts Sl, beispielswei- se die Bestimmung von Merkmalen wie MFCCs, wiederverwendet werden und in die Vokabularerzeugung und/oder Gesamtspracherkennung im Schritt S2 berücksichtigt werden. Die Merkmale o- der Emissionswahrscheinlichkeiten aus dem ersten Teilsprach- erkennungsschritt Sl können zwischengespeichert werden und in dem zweiten Gesamtspracherkennungsschritt S2 wiederverwendet werden. Eine mehrfache Berechnung, die redundant wäre, wird dadurch verhindert.

Neben dem Beispiel einer Zieleingabe im Navigationssystem für ein Kraftfahrzeug sind auch andere Anwendungsmoglichkeiten denkbar. Es ist beispielsweise möglich, bei einem MP3-Player oder einer allgemeinen Audiowiedergabeeinrichtung, welche sprachgesteuert sein soll, den Benutzer den vollständigen Satz aus Kunstler, Album und Titel sprechen zu lassen und zunächst eine Teilspracherkennung an dem Außerungsteil, der den Kunstler betrifft, durchgeführt wird. Im zweiten Spracherken- nungsschritt ist dann ein deutlich verminderter Erkennervoka- bularumfang möglich. Der Nutzer muss in keinem Fall die Ge- samtaußerung manuell in Einzelteile spalten oder einzelne Außerungsteile quittieren. Das dargestellte Verfahren ermöglicht dabei eine besonders komfortable und benutzerfreundliche Spracherkennung bei viel- bzw. mehrteiligen Äußerungen, die zu erkennen sind.

Die Figuren 6A und 6B zeigen ein mögliches zeitliches Ablaufdiagramm für ein zweistufiges Spracherkennungsverfahren nach einer Variante der Erfindung. Dabei verlauft die Zeitachse von oben nach unten, wobei die vier parallel gestrichelten Linien mit Aktionen bzw. Verfahrensschritten besetzt sind, die von verschiedenen Elementen oder Einrichtungen eines Spracherkennungssystems bzw. einer Spracherkennungsvorrich- tung, wie sie beispielsweise in der Figur 1 dargestellt ist, durchgeführt werden.

Dazu ist eine Spracherkennungseinheit 2, die beispielsweise durch die CPU zusammen mit einer geeigneten Programmierung z. B. durch eine Spracherkennungssoftware im ROM-Speicher 7 rea- lisiert werden kann, dargestellt. Der Einfachheit halber ist der Kasten mit dem Bezugszeichen 2 versehen. Die zweite vertikale gestrichelte Linie ist einem gemeinsam verwendeten Speicher, beispielsweise dem RAM-Speicher 6, zugeordnet. Die dritte vertikale gestrichelte Linie ist einer Einheit 4 zugeordnet, die entsprechende Phoneme für ein Vokabular für die Erkennereinrichtung oder Erkennersoftware bereitstellt. Dies kann z. B. direkt von der Datenbank 4 bereitgestellt werden oder aber mittels geeigneter Programmierung auch von der CPU über einen Programmteil, der einen sogenannten Phonem-Service bietet, geliefert werden. Die rechte vertikale gestrichelte Linie ist einer Ein-/Ausgabeeinrichtung 12 zugeordnet, beispielsweise einem GUI, das zum Beispiel als Touchscreen oder kombinierte Tastatur-Display-Einheit ausgeführt sein kann.

Das Spracherkennungsverfahren wird beispielsweise im Schritt Rl durch die Eingabe einer Landerkennzeichnung von dem Nutzer durch das GUI 12 gestartet. Die Eingabe wird der Erkennereinheit 2 übermittelt. Als Erkennereinheit wird im Folgenden zum Beipiel eine Programmteil verstanden, der eine Spracherken- nungsfunktionalitat auf einer programmierbaren Rechnereinrichtung, wie der CPU 2, realisiert. Die Erkennereinheit 2 beginnt dann im Schritt T21, ein entsprechendes erstes Vokabular für das entsprechende Land von der Datenbank bzw. dem Phonem-Service 4 abzufragen. In der ersten Stufe der Spracherkennung ist es notwendig, beim Beispiel bei der Zieleingabe für ein Navigationssystem, ein Teilvokabular für die Stadte- namen zu erstellen, wobei, falls ein HMM-Modell für die Spracherkennung eingesetzt wird, die übrigen Außerungsteile, also diejenigen, welche nicht den erwarteten Außerungsteil, welcher den Stadtenamen betrifft, entsprechen im Rahmen des HMM-Modells mit Mulldaten modelliert werden.

Die CPU bzw. Erkennereinheit 2 sendet eine entsprechende Pho- nem-Anfrage R2 an die Phonem-Datenbank 4 bzw. den Phonem- Service 4. Daraufhin erfolgt im Schritt R3 das Schreiben der notwendigen Phoneme und/oder weiterer Angaben, die für eine Spracherkennungssoftware notwendig sein können, in den ge- meinsam genutzten Speicher 6 der Spracherkennungsvorrichtung 1. Der verwendete Speicherbereich ist gegenüber der vollständigen Datenbank 4 gering, da lediglich die Stadtenamen, also ein Außerungsteil, aktiv modelliert wird, wahrend übrige Au- ßerungsteile der aufzunehmenden Äußerung im ersten Erkennungsschritt unwichtig sind. Nachdem der Speicher mit den notwendigen Phonemdaten beschrieben wurde, wird dies im Schritt R4 mit einem Quittungssignal oder Done-Befehl beendet. Der Phonem-Service 4 liefert ebenfalls ein Quittungssig- nal R5 an die Erkennereinheit, welche daraufhin im Folgeschritt R6 aus dem gemeinsam verwendeten Speicher 6 die vorliegenden Phonemdaten ausliest.

Die entsprechende Erkennersoftware oder Erkennereinrichtung 2 erstellt nun im Schritt T22 das erste Vokabular für die

Durchfuhrung der ersten Teilspracherkennung, z. B. für ein HMM-Modell mit Mull- oder Fulldaten für die nicht zu berücksichtigenden Außerungsteile. Anschließend kann der Speicherbereich für die Phonemdaten im Schritt R7 freigegeben werden. Dies wird der Phonem-Serviceeinheit 4 mitgeteilt. Nach dem

Schritt R4 ist die Teilspracherkennung vollständig vorbereitet.

Somit kann im Schritt R8 eine Eingabeaufforderung, z. B. über das GUI 12 dem Nutzer übermittelt werden. Eine Möglichkeit besteht darin, dass der Nutzer über ein Push-to-Talk die vollständige Zieladresse für das Navigationssystem ausspricht. Dies erfolgt im Schritt Tl. Der Nutzer gibt dabei in einem vollständigen Satz die gesamte Zieladresse ein, ohne über das GUI weitere Eingaben vorzunehmen. Beim Push-to-Talk wird der Start der Spracheingabe durch ein Signal, beispielsweise einen Knopfdruck, durch den Nutzer der Erkennereinheit 2 signalisiert. Dadurch ist ein fest definierter Anfang der Äußerung, welche durch die Erkennereinheit bzw. Software zu erkennen ist, vorgegeben, was den Rechenaufwand erniedrigt, da kein Außerungsanfang aufwandig bestimmt werden muss. Somit beginnt im Schritt R9 die erste Teilspracherkennung zum Bestimmen einer Trefferliste aus dem Vokabular an Suchworten, welches in diesem Fall eine Liste von N Treffern mit den besten Stadtenamen umfasst. Eine beispielhafte Liste mit ersten Treffern Hl-HN ist in der Figur 5 dargestellt. Das Ergebnis dieser ersten Stufe der Spracherkennung im Schritt Sl kann optional auch im Schritt RIO von dem GUI angezeigt werden. Dies ist jedoch nicht zwingend notwendig, da die Spracherkennung selbsttätig in der zweiten Stufe auch die weiteren Auße- rungsteile, also diejenigen, die Straßennamen und Hausnummern betreffen, berücksichtigt. Dazu muss zunächst ein erneutes Vokabular für die Spracherkennungseinheit 2 bereitgestellt werden .

Es erfolgt daher im Schritt RIl eine Abfrage der Phonemdaten für die Straßennamen und/oder Hausnummern, welche den ersten Treffer Hl der ersten Stufe der Spracherkennung betreffen. Die entsprechenden Phonemdaten werden im Schritt R12 in den gemeinsam genutzten Speicher 6 übertragen, was im Schritt R7 quittiert wird und im Schritt R14 der Erkennereinheit 2 mitgeteilt wird. Im Schritt R15 liest die Erkennereinheit 2 die entsprechenden Phonemdaten und erstellt im Schritt T41 das Vokabular für die zweite Stufe der Spracherkennung, die den ersten Treffer der ersten Stufe Hl betrifft.

Analog werden Abfragen für Straßennamendaten der weiteren Treffer, z. B. dem zweiten Treffer H2 im Schritt R16 von der Phonemdatenbank 4 abgefragt. Wiederum werden die entsprechenden Phonemdaten im Schritt R17 in den Speicher eingeschrie- ben, was im Schritt R18 quittiert wird, und im Schritt R19 von der Phonemdatenbank an die Erkennereinrichtung 2 mitgeteilt wird. Die Phonemdatenbank oder der Phonem-Service 4 bestätigt somit die erfolgreiche Übermittlung der angefragten Phonemdaten in den Speicher 6 der Erkennereinheit 2. Anhand der vorliegenden Phonemdaten und optionaler weiterer Daten, die für den Aufbau eines Vokabulars für die Erkennereinheit erforderlich sind, erstellt die Erkennereinheit im Schritt T42, dass Vokabular für die zweite Stufe der Spracherkennung, wie es z. B. in der Figur 5 anhand der Straßennamen SN21-SN2O und Hausnummern NB211-NB21S und NB2O1-NB2OT illustriert ist. Entsprechende Phonemdatenabfragen und Vokabularerstellungen erfolgen nun für alle Treffer der ersten Erkennungsstufe Hl- HN. Mittels dem derart aufgebauten Erkennervokabular kann nun die zweite Stufe der Spracherkennung an der gesamten Äußerung erfolgen .

Die Äußerung kann z. B. ebenfalls im Speicher 6 digitalisiert abgelegt sein. Somit fragt die Erkennereinheit 2 die Äußerung im Schritt R20 ab und fuhrt den zweiten Spracherkennungs- schritt bzw. die zweite Spracherkennungsstufe S2 durch. Dies erfolgt mit dem Vokabular, welches abhangig von den Ergebnissen der ersten Erkennerstufe erzeugt wurde. Schließlich wird im Schritt R21 eine Trefferanzeige vorgenommen, welche z. B. bei dem in der Figur 4 dargestellten Äußerung die folgenden Möglichkeiten für Zieladressen umfassen kann:

München Otto-Hahn-Ring 6, München Otto-Hahn-Ring 60, München Otto-Hahn-Weg 6, München Otto-Hahn-Ring 16.

Die vorbeschriebenen Varianten des Verfahrens zur Spracher- kennung reduzieren das für die Erkennung, insbesondere mehrteilige Äußerungen, notwendige Vokabular. Damit sind auch es- sourcenschwache Embedded Systems in der Lage, sprecherunabha- gige Spracherkennungen zu realisieren. Die Spracherkennung der komplexen Äußerung mit mehreren Außerungsteilen wird in zwei oder optional auch mehreren Schritten durchgeführt. Abhangig vom Erkennungsergebnis des ersten Schrittes werden die Vokabulare der folgenden Schritte erstellt. Obwohl die Erfindung im Wesentlichen anhand von zwei Erkennungsstufen oder Erkennungsschritten erläutert wurde, ist eine Verallgemeine- rung auf mehrere Schritte leicht möglich. Bei der Erkennung großer Wortschatze wird die Vokabulargroße für die einzelnen Schritte oder Erkennungsstufen jeweils deutlich reduziert. Das mehrstufige Verfahren zur Spracherkennung hat ferner den Vorteil, dass eine reduzierte Ladezeit der jeweiligen Phonemdaten oder Vokabulardaten von einer Datenbank erfolgt. Konventionelle Erkenner, welche längere Äußerungen mit mehreren Außerungsteilen einer Spracherkennung unterziehen, müssen das vollständige Vokabular mit seiner gesamten Komplexität am Anfang der Spracherkennung laden. Dies belastet den jeweiligen Daten- oder Kommunikationsbus und erfordert einen besonders großen Speicher. Durch die zwei- oder mehrstufige Spracher- kennung gemäß der Varianten der Erfindung sind lediglich geringe Speicherplatze notwendig, und die Übertragung der jeweiligen Phonem- oder Vokabulardaten auf einem Datenbus ist reduziert .

Durch die Verwendung der ersten, beispielsweise N Treffer aus dem ersten Erkennungsschritt wird auch die Erkennungsrate gegenüber einer üblichen Strategie, bei der unabhängige Erkennungsverfahren für einen ersten Außerungsteil und einen zweiten Außerungsteil durchgeführt wird, verbessert. Dies kann insbesondere durch die Verwendung logischer Verknüpfungen o- der Konsistenzuberprufungen bei hierarchischen Datenbanken mit einem Oberbegriff, wie Stadtenamen, und weiteren zugeordneten Begriffen, wie Straßennamen und Hausnummern, geschehen. Wenn in der ersten Erkennungsstufe, beispielsweise für N = 20 Treffer ermittelt werden, wobei die Äußerung "München Otto- Hahn-Ring 6" ist und "München" aufgrund beispielsweise der Storumstande nur achtzehnter Stelle erkannt wird, kann dennoch die Kombination "München Otto-Hahn-Ring 6" in der zweiten Stufe als bester Treffer auftreten, wenn an den übrigen Orten wie Munchlingen oder Munchhausen entweder kein Straßenname "Otto-Hahn-Ring" existiert oder nur andere Hausnummern vorliegen. Die Verknüpfung der ersten und zweiten Erkennungsstufe liefert damit eine besonders zuverlässige Spracherkennung von komplexen mehrteiligen Äußerungen.

Die vorbeschriebenen Verfahren bieten somit eine verbesserte Erkennungsrate im Vergleich zu üblichen Erkennungsverfahren. Es ist ein reduzierter Speicher- und Rechenbedarf erforder- lieh. Da die Vokabulare und Phonemdaten reduziert werden, ist der Datenbus mit geringerem Datentransfer belastet. Der Zugriff auf Phonemdaten und/oder Teilvokabulare ist schneller, da Teilvokabulare, beispielsweise Straßennamen- Vokabulare für besonders große Städte mit vielen Straßennamen zwischengespeichert werden können. Vokabularteile, die beispielsweise kleinen Städten entsprechen, mit wenigen Straßen können dynamisch online generiert werden und müssen nicht vorkompiliert werden. Durch die für den Benutzer einstufig wirkende Spracherkennung der komplexen Eingabeaußerung, welche zu erkennen ist, verringert sich die Eingabezeit der Zieladresse. Es sind keine mehrstufigen oder Quittiervorgange durch den Nutzer notwendig.

Obwohl die vorliegende Erfindung anhand bevorzugter Ausfuhrungsbeispiele und Varianten des Spracherkennungsverfahrens erläutert wurde, ist sie nicht darauf beschrankt, sondern vielfaltig modifizierbar. Die vorbeschriebenen Beispiele anhand einer Zieleingabe für ein Navigationssystem ist abwan- delbar. Zumindest immer dann, wenn eine mehrere Außerungsteile umfassende Äußerung hierarchisch organisiert ist, d. h., wenn beispielsweise ein erster Außerungsteil ein Oberbegriff für weitere Außerungsteile darstellt kann die Erfindung eine Spracherkennung verbessern. Insofern lasst sich der in der Figur 5 dargestellte Verzweigungsbaum auf vielerlei Anwendungen beziehen, wie z. B. die erwähnte Suche von Musikstucken bei einem Musikabspielgerat, wobei als Oberbegriff z. B. der Interpret, als weiterer Begriff das Album und schließlich die Tracknummer oder Songnummer verwendet werden kann. Auch die Anzahl der Außerungsteile und deren Anordnung in der Äußerung sind abwandelbar. Der erste zu erkennende Außerungsteil kann z. B. auch am Ende der Gesamtaußerung vorliegen.

Claims

Patentansprüche

1. Verfahren zur Spracherkennung einer zu erkennenden Äußerung (A), welche mehrere zu erkennende Außerungsteile (A1-A5) aufweist, wobei eine Teilspracherkennung (Sl) an einem ersten ausgewählten Außerungsteil (Al) erfolgt und in Abhängigkeit von einer durch die Teilspracherkennung (Sl) erkannten Auswahl von Treffern für den ersten Außerungsteil (Al) eine Spracherkennung (S2) an dem ersten (Al) und weiteren Auße- rungsteilen (A2-A5) der Äußerung (A) durchgeführt wird.

2. Verfahren nach Anspruch 1, wobei der erste Außerungsteil (Al) einer Teilspracherkennung (Sl) anhand eines Hidden-Markov-Modells unterzogen wird, bei dem die übrigen Außerungsteile (A2-A5) für die Teilspracherkennung (Sl) mit Fulldaten überdeckt werden.

3. Verfahren nach Anspruch 1 oder 2, wobei der erste Außerungsteil (Al) durch eine Bestimmung des zeitlichen Energieverlaufs der Äußerung (A) erkannt wird und einer Teilspracherkennung (Sl) unterzogen wird.

4. Verfahren nach einem der Ansprüche 1 - 3, wobei der erste Außerungsteil (Al) durch eine Sprachaktivi- tatserkennung in der Äußerung (A) ermittelt wird und einer Teilspracherkennung (Sl) unterzogen wird.

5. Verfahren nach einem der Ansprüche 1 - 4, wobei in Abhängigkeit von der durch die Teilspracherkennung (Sl) erkannten Auswahl von Treffern (Hl-HN) für den ersten

Außerungsteil (Al) eine Spracherkennung (S2) an der gesamten Äußerung durchgeführt wird.

6. Verfahren nach einem der vorherigen Ansprüche, wobei mindestens einer der folgenden Verfahrensschritte durchgeführt wird: a) Aufnehmen (Tl) einer Äußerung (A), welche mehrere Außerungsteile (A1-A5) umfasst; b) Bereitstellen eines ersten Vokabulars (T2), welches eine erste Liste von Suchworten, Phonemkombinationen und/oder U- bergangsWahrscheinlichkeiten umfasst; c) Durchfuhren einer Teilspracherkennung (Sl) für den ausge- wählten ersten Außerungsteil (Al) der aufgenommenen Äußerung (A) mittels dem bereitgestellten ersten Vokabular (Sl) zum Bestimmen einer Auswahl von Treffern (Hl-HN) aus der Liste von Suchworten; d) Bereitstellen eines zweiten Vokabulars (T4) , in Abhangig- keit von der Auswahl von Treffern (Hl-HN), wobei das zweite

Vokabular eine Liste von Suchwortkombinationen von mehreren Suchworten, Phonemkombinationen und/oder Ubergangswahrschein- lichkeiten umfasst; und e) Durchfuhren einer Spracherkennung (S2) für die aufgenomme- ne Äußerung (A) mittels dem zweiten Vokabular zum Bestimmen einer Auswahl von Treffern aus der Liste von Suchwortkombinationen .

7. Verfahren nach Anspruch 6, wobei die Auswahl von Treffern (Hl-HN) aus Suchworten gebildet wird, welche wahrscheinlichsten Treffern für die Teilau- ßerung (Al) in dem ersten Vokabular entsprechen.

8. Verfahren nach Anspruch 6 oder 7, wobei die Auswahl von Treffern aus Suchwortkombinationen gebildet wird, welche wahrscheinlichsten Treffern für die aufgenommene Äußerung (A) in dem zweiten Vokabular entsprechen.

9. Verfahren nach einem der vorherigen Ansprüche 5 - 7, wobei das zweite Vokabular Suchwortkombinationen entspricht, welche durch Zuordnen von Zusatzworten und/oder Zusatzwortfolgen zu den Treffern der Teilspracherkennung (Hl-HN) gebildet werden.

10. Verfahren nach einem der vorherigen Ansprüche 5 - 8, wobei das Verfahren zum Erkennen von gesprochenen Eintragen einer Datenbank (4) ausgestaltet ist, wobei die Datenbank (4) hierarchisch aufgebaut ist und einem jeweiligen Oberbegriff weitere Begriffe zugeordnet sind, welchen weitere Unterbegriffe zugeordnet sind.

11. Verfahren nach Anspruch 10, wobei der Oberbegriff einen Stadtenamen, die weiteren Begriffe Straßennamen und die weiteren Unterbegriffe Hausnummern umfassen .

12. Verfahren nach einem der vorherigen Ansprüche 5 - 11, wobei das zweite Vokabular eine Unterauswahl eines Gesamtvokabulars für die gesamte Äußerung aufweist und ausgewählte Kombinationen von Treffern aus der Liste von Suchworten des ersten Vokabulars mit weiteren Suchworten des Gesamtvokabulars aus dem zweiten Vokabular ausgeschlossen werden.

13. Verfahren nach einem der vorherigen Ansprüche 5 - 12, wobei nach dem Durchfuhren der Teilspracherkennung (Sl) das erste Vokabular aus einem Speicher geloscht (T3) wird und das zweite Vokabular eingelesen wird (T4).

14. Verfahren nach einem der vorherigen Ansprüche, wobei bei der Teilspracherkennung (Sl) ermittelte Eigenschaften der Äußerung (A) und/oder des Außerungsteils (Al), insbesondere bestimmte MFCC-Merkmale und/oder berechnete Emissi- onswahrscheinlichkeiten, bei der Spracherkennung (S2) der weiteren Außerungsteile (A2-A5) und/oder der gesamten Äußerung (A) wieder verwendet werden.

15. Verfahren nach einem der vorherigen Ansprüche, wobei der erste Außerungsteil (Al) am Anfang der zu erkennenden Äußerung (A) steht.

16. Verfahren nach einem der vorherigen Ansprüche, wobei zumindest Teile des zweiten Vokabulars vorkompiliert werden.

17. Verfahren nach Anspruch 12 und 16, wobei Referenzvektoren eines Hidden-Markov-Modells für Teilvokabulare des Gesamtvokabulars berechnet und abgespeichert werden .

18. Spracherkennungsvorrichtung (1), welche derart ausgestaltet ist, dass ein Verfahren nach einem der Ansprüche 1 - 17 ausgeführt wird.

19. Spracherkennungsvorrichtung (1) nach Anspruch 18, wobei die Spracherkennungsvorrichtung als ein Embedded System, insbesondere für den Automotivebereich, ausgeführt ist.

20. Spracherkennungsvorrichtung (1) nach Anspruch 18 oder 19, wobei die Spracherkennungsvorrichtung (1) eine Steuereinrich- tung (2) und eine Speichereinrichtung (5), welche an eine Datenbankeinrichtung (4) gekoppelt sind, wobei die Datenbankeinrichtung (4) Suchworte eines Vokabulars und/oder eine phonemische Transkription der Suchworte bereitstellt.

21. Spracherkennungsvorrichtung (1) nach einem der Ansprüche 18 - 20, wobei die Spracherkennungsvorrichtung als Teil eines Navigationssystems, insbesondere für ein Kraftfahrzeug, ausgestaltet ist.

22. Spracherkennungsvorrichtung (1) nach einem der Ansprüche 18 - 21, wobei die Spracherkennungsvorrichtung (1) als Teil eines Mobiltelefons und/oder einer Audiowiedergabeeinrichtung, insbe- sondere eines MP3-Players, ausgestaltet ist.

23. Kraftfahrzeug, insbesondere ein Automobil, welches eine Spracherkennungsvorrichtung (1) nach einem der Ansprüche aufweist .

24. Computerprogrammprodukt, welches die Durchführung eines Verfahrens nach einem der Ansprüche 1 - 17 auf einer programmgesteuerten Spracherkennungsvorrichtung (1) veranlasst.