ITTO950200A1 - Sistema di riconoscimento di parlato continuo - Google Patents

Sistema di riconoscimento di parlato continuo Download PDF

Info

Publication number
ITTO950200A1
ITTO950200A1 IT95TO000200A ITTO950200A ITTO950200A1 IT TO950200 A1 ITTO950200 A1 IT TO950200A1 IT 95TO000200 A IT95TO000200 A IT 95TO000200A IT TO950200 A ITTO950200 A IT TO950200A IT TO950200 A1 ITTO950200 A1 IT TO950200A1
Authority
IT
Italy
Prior art keywords
probability
bigrams
parameters
lexicon
tree
Prior art date
Application number
IT95TO000200A
Other languages
English (en)
Inventor
Giuliano Antoniol
Fabio Brugnara
Mauro Cettolo
Marcello Federico
Original Assignee
Ist Trentino Di Cultura
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ist Trentino Di Cultura filed Critical Ist Trentino Di Cultura
Priority to IT95TO000200A priority Critical patent/IT1279171B1/it
Publication of ITTO950200A0 publication Critical patent/ITTO950200A0/it
Priority to AT96104031T priority patent/ATE223610T1/de
Priority to EP96104031A priority patent/EP0732685B1/en
Priority to DE69623364T priority patent/DE69623364T2/de
Priority to US08/616,343 priority patent/US5765133A/en
Publication of ITTO950200A1 publication Critical patent/ITTO950200A1/it
Application granted granted Critical
Publication of IT1279171B1 publication Critical patent/IT1279171B1/it

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Navigation (AREA)
  • Image Analysis (AREA)
  • Selective Calling Equipment (AREA)
  • Telephonic Communication Services (AREA)

Abstract

Sistema di riconoscimento di parlato continuo, utilizzabile ad esempio per applicazioni di dettatura automatica, impiegante un modello del linguaggio a bigrammi organizzato come una rete a stati finiti probabilistica. Il sistema utilizza inoltre un originale procedimento di stima delle probabilità associate ai bigrammi e un originale metodo di rappresentazione del modello del linguaggio in una rete probabilistica ad albero.(Figura 1).

Description

DESCRIZIONE dell'invenzione industriale dal titolo: "Sistema di riconoscimento di parlato continuo"
DESCRIZIONE
La presente invenzione fa riferimento in genera-le ai sistemi di riconoscimento vocali, in particola-re ai sistemi di riconoscimento di parlato continuo, e più specificatamente fa riferimento alla stima del modello del linguaggio e alla sua rappresentazione in un sistema di riconoscimento vocale.
I sistemi di riconoscimento vocale sono ormai abbastanza diffusi nella tecnica e vengono impiegati in una varietà di applicazioni in cui un essere umano può comunicare a voce con un elaboratore elettronico. Tali sistemi consentono infatti di convertire un segnale acustico, la voce umana, in informazioni codificate in formato digitale rappresentanti le parole pronunciate da un parlatore umano. In tal modo è possibile realizzare un'interfaccia uomo-macchina particolarmente semplice, confortevole ed efficiente da usare, per l'uomo, in sostituzione di dispositivi quali tastiere alfanumeriche e simili.
in sostituzione di tali dispositivi un sistema di questo tipo impiega un sensore acustico, ad esempio un microfono, collegato ad un circuito convertitore analogico-digitale al fine di trasformare il segnale acustico emesso dal parlatore in un formato compatibile per un elaboratore elettronico. Infine un sistema di questo tipo impiega un'unità di elaborazione per decodificare il segnale acustico convertito in un segnale indicativo delle parole pronunciate.
L'unità di elaborazione può essere dedicata a tale compito oppure può venire realizzata utilizzando parte delle risorse elaborative dell'elaboratore elettronico destinato a ricevere il segnale decodificato, in modo ben noto nella tecnica. Tale unità di elaborazione in genere necessita di una potenza considerevole data la complessità del compito che è chiamata a svolgere per cui vi è l'esigenza di migliorare l'efficienza e le prestazioni di tale tipo di sistemi.Un'applicazione caratteristica vede l'uso di tali sistemi come interfacce nelle apparecchiature, e nei sistemi, di dettatura automatica.
La maggior parte degli attuali prototipi di sistemi per il riconoscimento di parlato continuo eseguono un processo di decodifica attraverso un algoritmo di ricerca che opera su una rappresentazione dello spazio di ricerca.
Data una rappresentazione di un segnale di ingresso Y, il compito del processo di decodifica è quello di calcolare la stringa (sequenza) di parole W che massimizza il seguente criterio di decisione Bayesiano :
dove Pr(W) è la probabilità a priori, o linguistica, di una stringa w e Pr(YjW) è la sua probabilità acustica, ovvero la probabilità che Y corrisponda a tale stringa .
La probabilità acustica di una stringa viene calcolata utilizzando dei particolari modelli stocastici, detti modelli di Markov nascosti (hidden Markov model, HMM), si veda in proposito "A tutorial on hidden Markov models and selected applications in speech recognition" di L.R. Rabiner in "Readings in speech recognition" di A. weibel e K. Lee, pagg. 267-296, Morgan Kaufmann, 1990, che rappresentano le unità fonetiche della lingua riconosciuta. Ogni parola del dizionario viene modellata tramite una o più sequenze di tali unità.
La probabilità linguistica Pr (W) viene calcolata dal modello del linguaggio tramite un modello stocastico detto a bigrammi. Si veda in proposito "Selforganized language modeling for speech recognition" in "Readings in speech recognition" di A. Weibel e K. Lee, pagg. 450-505, Morgan Kaufmann, 1990,
La ricerca della cosiddetta stringa ottima viene effettuata da un algoritmo di ricerca a fascio, noto anche come beam-search, si veda in proposito H. Ney, D. Mergel, A,. Noli, and A. Paesler "Data driven search organization for continuous speech recogni-tion" IEEE transactions on signal processing Voi. 40, No. 2, pp. 272-281, Feb. 1992 su una rete a stati finiti che rappresenta in termini probabilistici l'insieme delle stringhe di parole accettate dal riconoscitore. Durante la ricerca, la valutazione di ipotesi parziali avviene utilizzando sia le probabilità linguistiche che quelle acustiche, ottenute confrontando la rappresentazione del segnale con i mo-delli delle parole.
Lo scopo della presente invenzione è quello di realizzare un sistema per il riconoscimento di parlato continuo più affidabile ed efficiente, cioè con prestazioni migliorate, rispetto a sistemi di questo tipo secondo la tecnica nota.
Secondo la presente invenzione, tale scopo viene raggiunto grazie ad un sistema di riconoscimento di parlato continuo avente le caratteristiche indicate nelle rivendicazioni che seguono la presente descrizione.
Ulteriori vantaggi e caratteristiche della presente invenzione risulteranno evidenti dalla seguente dettagliata descrizione, effettuata con l'ausilio degli annessi disegni, forniti a titolo di esempio non limitativo, in cui:
- la figura 1 è una rappresentazione schematica di una struttura dati del sistema secondo la presente invenzione, e
la figura 2 illustra schematicamente un passo dell'algoritmo di costruzione della struttura dati utilizzata dal sistema.
Il sistema secondo l'invenzione utilizza un originale metodo di stima delle probabilità del modello del linguaggio, a partire da un campione di testi, ed una rappresentazione originale dello spazio di ricerca per 1'alcioritino di decodifica, che verranno descritti nel seguito.
Naturalmente il sistema secondo la presente invenzione è configurato in modo da eseguire le operazioni e le fasi di elaborazione, cosiddette a basso livello, del segnale acustico da riconoscere e che non verranno qui descritte in dettaglio in quanto non differiscono da analoghe operazioni svolte da sistemi di questo tipo e sono quindi ampiamente note nella tecnica. La presente descrizione è invece fondamentalmente intesa ad illustrare le componenti originali del sistema secondo l'invenzione.
In particolare le differenze rispetto alla tecnica nota sono relative al modello del linguaggio, alla sua stima e rappresentazione, nel sistema secondo l'invenzione, ragion per cui la presente descrizione verterà sostanzialmente su tali aspetti. Per le componenti e le fasi del sistema qui non esplicitamente descritti si può assumere che siano di tipo noto nella tecnica.
Parimenti sono da considerarsi note le tecniche e le metodologie di realizzazione del sistema secondo l'invenzione per il quale possono essere adottate architetture elaborative di tipo tradizionale ed alla portata di un tecnico esperto del settore.
Stima del modello nel linguaggio
il modello del linguaggio statistico costituisce la conoscenza linguistica del dominio considerato. La sua funzione è di suggerire all'algoritmo di decodifica le parole più probabili che possono seguire un certo contesto, in genere costituito da una o più parole. Nel caso in cui il contesto sia formato da una sola parola, il modello del linguaggio utilizzato è quello dei bigrammi, ossia coppie di parole consecutive. Un modello a bigrammi stima la probabilità di un testo, o sequenza, di parole
mediante la seguente approssimazione:
Questa approssimazione, che formalmente assume un processo di Markov omogeneo, richiede di stimare la probabilità di un generico bigramma yz.
La stima delle probabilità solitamente si basa sui conteggi di bigrammi relativi ad un testo di apprendimento, che rispecchia il più possibile il linguaggio del dominio considerato. Un fenomeno tipico dei testi è però la cosiddetta sparsezza dei dati, che in pratica vuol dire che vi sono molti bigrammi rari e pochi bigrammi molto frequenti. Inoltre, vi sono molti bigrammi possibili che non compaiono mai nel testo di apprendimento ai quali il modello del linguaggio deve comunque assegnare una probabilità non nulla.
Nell'approccio più utilizzato per stimare un modello del linguaggio a bigrammi si fa uso di: una funzione di sconto che toglie dalle frequenze relative dei bigrammi porzioni di probabilità che, messe assieme, costituiscono la probabilità totale da assegnare ai bigrammi mai visti nel contesto
una funzione di ridistribuzione che suddivide la probabilità totale tra i bigrammi mai visti nel contesto
uno schema di calcolo che combina le due funzio-ni precedenti per calcolare la probabilità di un generico bigramma.
Anche se esistono molti modi per calcolare la funzione di sconto, la probabilità dei bigrammi a frequenza zero viene di solito ridistribuita in proporzione alla probabilità a priori delle singole parole, o unigrammi, Pr(z). Quest'ultima probabilità può essere calcolata con metodi tradizionali quali ad esempio la frequenza relativa f (z). Uno schema di calcolo noto in letteratura e qui utilizzato è quello interpolato :
(comparizioni) in un testo.
Secondo lo schema interpolato la probabilità del bigramma è espressa come interpolazione della frequenza relativa scontata e della funzione di ridistribuzione.
La funzione di sconto qui utilizzata è quella lineare per la quale:
Un modello interpolato lineare comporta la stima dei parametri per ogni parola y del vocabolario V.
La stima del modello interpolato lineare si basa sulla combinazione di una tecnica di stima nota come cross-validation, e di un metodo di interpolazione tra stimatori, noto come stacked estimation.
senza perdere in generalità, il modello interpolato lineare può essere riscritto come:
Ciascun parametro l(y) può essere stimato in modo che massimizzi la seguente funzione, denominata "leavingone-out likelihood", su un testo di apprendimento W:
dove è la frequenza relativa calcolata su W dojpo aver tolto una occorrenza di yz.Questo criterio di stima, derivato combinando il criterio di massima verosimiglianza con una tecnica di cross-validation detta Leaving-One-Out, permette di simulare nella funzione di stima i bigrammi mai visti.
Applicando un teorema di Baum ed Egon, si veda in proposito "An inequality with applications to statistical predictions for functions of Markov processes and to a model for ecology" di L.E. Baum e J.A. Egon in Bull. Amer. Math. Soc., 73:360-363, 1967, si può ricavare una formula iterativa per calcolare i valori dei parametri che massimizzano LL localmente, rispetto a dei valori iniziali. La formula iterativa è la seguente:
dove Sy indica l'insieme delle occorrenze dei bigrammi che iniziano con y nel testo di apprendimento. Le iterazioni su ogni parametro vengono controllate secondo un altro criterio di cross-validation.
Di fatto, prima di iniziare l'apprendimento dei parametri, le occorrenze di bigrammi nel testo di apprendimento vengono divise casualmente in due parti, qui indicate con secondo il rapporto 3:4. La massimizzazione di LL avviene su W2 e le iterazioni del generico parametro vengono interrotte se portano ad una diminuzione della verosimiglianza dei bigrammi che iniziano con y nel campione W2. Al termine dell'apprendimento le frequenze relative vengono riconteggiate su tutto il testo di apprendimento W.
Questa tecnica implica ovviamente un costo aggiuntivo in termini di materiale utilizzato per l'addestramento dei parametri. Una parte consistente del testo di apprendimento viene infatti utilizzata solo per controllare l'algoritmo di massimizzazione.
Metodo di stima stacked
Per risolvere questo problema viene introdotto un metodo di stima originale basato sull'interpolazione di più stimatori.
L'interpolazione di stimatori è una tecnica utilizzata nella teoria della regressione, si veda in proposito "Stacked regressions <11 >di L. Breiman, Technical Report 367, Dept. of Statistics, University of California, Berkeley, Cai. Agosto 1992. Il metodo proposto si ispira a questa tecnica. L'approccio replica ad un diverso livello ciò che avviene per il modello interpolato stesso. Vengono cioè stimati diversi modelli lineari interpolati e
Ogni modello del linguaggio viene stimato su una diversa partizione casuale del testo di apprendimento nei due insiemi wle W2 secondo le stesse proporzioni. Al termine gli m modelli del linguaggio così stimati vengono combinati calcolandone la media. Il modello che ne risulta è il seguente:
dove λ1 è il vettore di parametri calcolato con l'iesima partizione del testo di apprendimento.
Il modello che ne risulta ha la stessa forma matematica del modello interpolato semplice, che può essere esteso ad n-grammi con n > 2 e a metodi di combinazione diversi dalla semplice media aritmetica.
Verranno ora illustrati in maggior dettaglio i passi impiegati per stimare il modello del linguaggio a bigrammi qui considerato. Il punto di partenza è sempre un testo di apprendimento che per convenienza può essere considerato come un campione casuale di bigrammi indipendenti e identicamente distribuiti. La stima utilizza come passo intermedio un algoritmo di stima basato su una cross-validation che necessita di due campioni di apprendimento: uno per la stima dei parametri mediante la formula iterativa (4) ed uno per valutare la condizione di terminazione delle iterazioni.
La stima vera e propria è ottenuta utilizzando questo algoritmo su m partizioni casuali del testo di apprendimento e quindi calcolando la media dei parametri stimati in ciascuna partizione. Verrà ora descritto il primo algoritmo di stima.
Algoritmo di stima con cross-validation (W,,W,) 1. Siano due campioni casuali di bigrammi e sia il sottoinsieme dei bigrammi in che iniziano con y
2. Calcola le frequenze relative
3. Inizializza tutti i parametri
4. Per ciascun parametro itera la formula (4) fintantoché la verosimiglianza di calcolata con la formula (3) aumenta.
L'algoritmo di stima con cross-validation viene utilizzato come passo intermedio nell'algoritmo di stima stacked. Il testo di apprendimento viene partizionato casualmente m volte in due sottocampioni di apprendimento sui quali viene applicato il precedente algoritmo. Si ottengono così m diverse stime dei parametri di interpolazione delle quali viene calcolato il valore medio. Infine, le frequenze relative vengono calcolate su tutto il testo di apprendimento. Quest'ultimo passo completa la stima del modello del linguaggio a bigrammi interpolato lineare.
Rappresentazione del modello del linguaggio
La rete a stati finiti su cui l'algoritmo di decodifica effettua la ricerca della soluzione ottima è costruita imponendo un duplice insieme di vincoli: un insieme acustico, limitando le sequenze di fonemi ammesse a corrispondere alle trascrizioni fonetiche delle parole, ed un insieme linguistico, associando
alle coppie di parole le probabilità stimate tramite la formula indicata con (2). Per una trattazione relativa alle reti a stati finiti si veda "Introduction to Automata Theory, Language and Computation" di J. Hopcroft e J. Ullman, Addison-Wesley, 1979.
I vincoli acustici; l'albero del lessico.
Il primo insieme di vincoli viene imposto in modo da sfruttare la somiglianza acustica delle parole, in effetti, in un vocabolario di dimensioni mediograndi vi sono molte parole che condividono la parte iniziale della loro trascrizione fonetica. Per questa ragione, l'insieme di parole viene organizzato ad albero .
L'albero ha una radice e tante foglie quante sono le parole del lessico. Gli archi entranti nelle foglie sono etichettati sia con l'ultimo fonema che con la stringa della parola a cui la foglia si riferisce; tutti gli archi rimanenti sono etichettati solamente con fonemi. Per ogni parola del dizionario, esiste un cammino che, a partire dalla radice, passa attraverso archi etichettati secondo la trascrizione fonetica della parola stessa e termina nella foglia che la identifica.
Parole che condividono la parte iniziale della trascrizione fonetica condividono anche il loro cammino fino al punto in cui la trascrizione coincide. Parole omofone, cioè con la stessa trascrizione fonetica, condividono il cammino fino al penultimo arco, restando l'ultimo distinto per permettere la corrispondenza biunivoca tra foglie e parole.
I vincoli linguistici: ali alberi dei successori Al fine di inserire i vincoli linguistici definiti dal modello del linguaggio nella rete, per ogni parola del dizionario l'insieme dei successori effettivamente osservati nel testo di apprendimento viene organizzato ad albero, esattamente come avviene per l'intero lessico. In questo modo, se la parola y è un successore osservato della parola z, allora l'albero dei successori di z avrà una foglia relativa alla parola y.
Le probabilità fornite dal modello del linguaggio vengono quindi inserite nella rete associandole a degli archi non etichettati, detti per questo vuoti, che connettono l'albero dell'intero lessico e gli alberi dei successori, secondo le modalità descritte di seguito. In figura 1 è rappresentata, per una migliore comprensione ed a titolo esemplificativo, una porzione di rete a stati finiti ad albero per la rappresentazione del modello del linguaggio. In figura con AL è indicato l'albero del lessico mentre con as (x), as (y), as(z) sono indicati gli alberi dei successori delle parole x, y e z rispettivamente.
Se y è un successore osservato di x allora la probabilità viene assegnata ad un arco vuoto che connette la foglia relativa a y dell'albero as (x) dei successori di x con la radice dell'albero as (y) dei s«uccessori di y. Ogni foglia dell'albero del lessico completo AL è connessa alla radice dell'albero dei successori della parola che essa identifica, sia essa y, tramite un arco vuoto a cui è associata la probabilità dell 'unigramma . Dalla radice dell'albero as(y) dei successori di y parte un arco vuoto verso la radice dell'albero dell’intero lessico AL con associata la quantità di probabilità
La fattorizzazione delle probabilità
Se la ricerca della soluzione ottima è fatta sulla rete della figura l, l'informazione acustica, associata ai modelli di Markov nascosti con cui i fonemi vengono modellati, e quella linguistica, specificata dagli archi vuoti, vengono utilizzate in zone della rete nettamente distinte.
Allo scopo di utilizzare l'informazione linguistica in anticipo rispetto al punto in cui essa è disponibile nella rete di figura 1, si effettua una fattorizzazione delle probabilità. Quando più parole condividono un fonema, sia all'interno dell'albero del lessico AL che negli alberi dei successori as(w) è possibile utilizzare la probabilità più alta tra quelle degli archi uscenti dalle foglie che identificano tali parole. In figura 2 è illustrato, per una migliore comprensione, un possibile passaggio di un'operazione di fattorizzazione delle probabilità della rete rappresentata in figura 1, come verrà meglio specificato nel seguito.
La fattorizzazione delle probabilità della rete avviene mediante l'applicazione dell'algoritmo di fattorizzazione delle probabilità, che verrà descritto nel seguito, sull'albero dell'intero lessico AL e sugli alberi dei successori as(w). Tale algoritmo richiede che le probabilità di tutti gli archi siano unitarie eccetto quelle degli archi entranti nelle foglie, vincolate solo ad essere non nulle. In effetti, l'applicazione dell'algoritmo di fattorizzazione delle probabilità è preceduta dallo spostamento delle probabilità del modello del linguaggio all'interno degli alberi, come illustrato in figura 2. In tal modo le probabilità degli archi vuoti uscenti dalle foglie vengono trasferite sugli archi entranti nelle foglie medesime; dopodiché, la fattorizzazione delle probabilità può aver luogo.
L'ottimizzazione della rete
L'uso del massimo tra tutte le probabilità delle parole che condividono un certo fonema comporta l'applicazione del valore corretto del modello del linguaggio non appena la parola non condivide più alcun fonema con altre parole. Inoltre, la fattorizzazione delle probabilità implica che a tutti gli archi vuoti uscenti dalle foglie degli alberi rimanga associato il valore di probabilità 1. Tali archi possono essere quindi eliminati, collassando gli stati da essi collegati .
La rete così ottenuta viene infine ridotta utilizzando uno degli algoritmi noti in letteratura per la minimizzazione del numero di stati di un automa a stati finiti deterministico, ad esempio nel già citato testo "The Design and Analysis of Computer Algorithms" di A. Aho, J. Hopcroft e J. Ullman, Addison-Wesley, 1974. Siccome la rete non è deterministica, data la presenza di archi vuoti, ed è probabilistica, avendo i suoi archi, vuoti e non, associata una probabilità, l'uso di uno di tali algoritmi rende necessaria l'adozione di alcuni accorgimenti.
Innanzitutto, agli archi vuoti va associato un simbolo fittizio in modo che essi siano considerati a tutti gli effetti degli archi etichettati. In secondo luogo, dato che questi algoritmi basano il loro funzionamento sull'etichetta associata agli archi, ogni arco viene etichettato con un'unica stringa ottenuta concatenando il simbolo del fonema, la probabilità e, nei casi in cui è presente, la parola.
Dal modello del linguaggio alla rete
I passi sopra descritti per la costruzione della rete che rappresenta il modello del linguaggio vengono di seguito riportati in forma algoritmica:
1. Costruisci l'albero dell'intero lessico
2. Per ogni parola del lessico, costruisci l'albero dei successori visti nel testo di apprendimento 3. Inserisci le probabilità fornite dal modello del linguaggio tramite delle transizioni vuote 4. Trasferisci le probabilità all'interno degli alberi
5. Fattorizza le probabilità negli alberi
6. Elimina le transizioni vuote superflue
7. Etichetta le transizioni vuote rimanenti con un simbolo fittizio ε
8. Etichetta ogni arco con la stringa ottenuta concatenando il fonema o il simbolo ε, la probabilità e, se presente, la parola
9. Ottimizza la rete
10. Riassegna ad ogni arco il fonema o il simbolo ε, la probabilità ed eventualmente la parola a partire dalla stringa ottenuta al passo 8.
Le soluzioni originali, secondo la presente invenzione, per la stima del modello del linguaggio e per la costruzione della rete con cui il modello del linguaggio viene rappresentato sono state utilizzate dalla richiedente per la realizzazione di un sistema di riconoscimento di parlato continuo, basato su modelli di Markov nascósti. Il dominio applicativo è quello della refertazione radiologica in lingua italiana. L'originale topologia della rete permette di ottenere una contenuta dimensione dinamica del processo di riconoscimento.
Il sistema secondo la presente invenzione, tuttavia, è applicabile in tutti quei settori in cui è riscontrabile una affinità con le problematiche specifiche del riconoscimento di parlato.Ad esempio, lo stesso approccio può essere impiegato per il riconoscimento di caratteri.Le tecniche originali proposte nella presente invenzione sono quindi immediatamente trasferibili in tale ambito.
Più in generale, le soluzioni proposte sono trasferibili in tutti quei settori in cui si effettua una classificazione di sequenze di simboli tali che:
la classificazione avviene mediante un algoritmo di ricerca a fascio basato su programmazione dinamica ;
le sequenze di simboli sono modellabili da un modello del linguaggio a bigrammi.
Naturalmente, fermo restando il principio dell'invenzione, i particolari di realizzazione e le forme di attuazione potranno essere ampiamente variati rispetto a quanto descritto ed illustrato, senza.per questo uscire dall'ambito della presente invenzione.

Claims (6)

  1. RIVENDICAZIONI 1. Sistema di riconoscimento di parlato continuo configurato in modo tale da compiere le seguenti operazioni : acquisire un segnale acustico comprendente parole pronunciate da un parlatore, elaborare detto segnale acustico in modo da generare un segnale indicativo di parametri acustici presenti in detto segnale acustico, decodificare detto segnale indicativo di parametri acustici in modo da generare un segnale di uscita indicativo delle parole pronunciate da detto parlatore' detta operazione di decodifica di detto segnale indicativo di parametri acustici comprendendo un'operazione di confronto con un modello del linguaggio rappresentativo di un linguaggio e con un lessico relativo alle parole pronunciate da detto parlatore, in cui detto modello del linguaggio è rappresentato mediante una rete a stati finiti ad albero di detto lessico, detta rete a stati finiti essendo una rete probabilistica, caratterizzato dal fatto che detta rete viene costruita, in una fase preliminare, impiegando un modello del linguaggio interpolato lineare per assegnare le probabilità a detta rete.
  2. 2. Sistema secondo la rivendicazione 1, caratteriz-zato dal fatto che detta rete a stati finiti comprende una trascrizione fonetica di dette parole di detto lessico.
  3. 3. Sistema secondo la rivendicazione 1 o la 2, ca-ratterizzato dal fatto che detto modello del linguaggio è basato su bigrammi.
  4. 4. Sistema secondo la rivendicazione 1 o la 2, caratterizzato dal fatto che detto modello del linguag-gio può essere esteso ad n-grammi con n > 2.
  5. 5. Sistema secondo la rivendicazione 3, caratterizzato dal fatto che impiega, per assegnare ad ogni bigramma la rispettiva probabilità, la seguente funzio-ne : essendo Pr(z|y) la probabilità di un generico bigramma yz, essendo λ(γ) la probabilità totale assegnata ai bigrammi a frequenza nulla nel contesto y, Pr (z) la probabilità a priori di z, f'(z|y) essendo data da : essendo f(z]y) la frequenza relativa del bigramma yz ed essendo c{y) il numero di occorrenze di y in un segnale acustico campione.
  6. 6. Sistema secondo la rivendicazione 5,caratterizzato dal fatto che detto modello interpolato lineare utilizza la seguente funzione: 7. Sistema secondo la rivendicazione 6,caratterizzato dal fatto che detto modello interpolato lineare comporta la stima di detto parametro l(y) per ogni parola y di detto lessico ed utilizza un procedimento di stima del tipo cross-validation ed un procedimento di interpolazione tra stimatori del tipo stacked estimation per stimare detti parametri λ(γ). 8. Sistema secondo la rivendicazione 7,caratterizzato dal fatto che ogni parametro λ(y) viene stimato in modo che massimizzi una funzione del tipo leavingone-out likelihood, denominata LL, definita dalla seguente formula: su detto testo di apprendimento, indicato con W, essendo f<*>(z|y) la frequenza relativa calcolata sul segnale campione W dopo aver tolto una occorrenza di yz ed essendo v detto lessico. 9. Sistema secondo la rivendicazione 8, caratterizzato dal fatto che impiega, per calcolare i valori dei parametri λ(γ) che massimizzano LL localmente rispetto a valori iniziali, la seguente formula iterativa : in cui Sy indica l'insieme delle occorrenze dei bigrammi che iniziano con y in detto testo di apprendimento W. 10. Sistema secondo la rivendicazione 9, caratterizzato dal fatto che prima di iniziare la stima di detti parametri λ(γ), le occorrenze di bigrammi in detto segnale campione vengono divise casualmente in due parti, W1 e w2, sostanzialmente secondo il rapporto 3:4, e la massimizzazione di LL avviene su W1 e le iterazioni di un generico parametro λ (y) vengono interrotte se portano ad una diminuzione della verosimiglianza dei bigrammi che iniziano con y nella parte 11. Sistema secondo la rivendicazione 10, caratterizzato dal fatto che utilizza un metodo di stima basato sull 'interpolazione di più stimatori, in cui vengono stimati m, con m > 1, modelli lineari interpolati, tra loro differenti, quindi combinati come segue: ogni modello del linguaggio essendo stimato su una diversa partizione casuale del testo di apprendimento nei due insiemi e W2 secondo le stesse proporzioni. 12. Sistema secondo la rivendicazione 11, caratterizzato dal fatto che i modelli del linguaggio stimati vengono combinati calcolandone la media in modo tale per cui il modello risultante è il seguente: in cui è un vettore di parametri calcolato con un i-esima partizione del testo di apprendimento. 13. Sistema secondo la rivendicazione 12, caratterizzato dal fatto che, per stimare detti parametri esegue le seguenti operazioni: essendo W un campione casuale di bigrammi per i = 1, ..., m calcolare una partizione casuale di w in due insiemi w1 e w2 secondo una proporzione 2:3 calcolare mediante un procedimento di stima con cross-validation il vettore di parametri calcolare il vettore medio calcolare le frequenze relative f(z|y) su W detto procedimento di stima con cross-validation comprendendo le seguenti fasi: essendo due campioni casuali di bigrammi ed essendo un sottoinsieme dei bigrammi in w2 inizianti con y calcolare le frequenze relative f(z|y) su inizializzare tutti i parametri X(y) = 0.5 per ciascun parametro λ(y) iterare detta formula iterativa fintantoché aumenta la verosimiglianza di calcolata con detta formula: 14. sistema secondo la rivendicazione 13, caratterizzato dal fatto che detta rete a stati finiti è costruita imponendo due insiemi di vincoli: un insieme acustico, limitando le sequenze di fonemi ammesse a corrispondere alle trascrizioni fonetiche delle parole, ed un insieme linguistico, associando alle coppie di parole dette probabilità stimate. 15. Sistema secondo la rivendicazione 14, caratterizzato dal fatto che detto primo insieme di vincoli viene imposto in modo da sfruttare la somiglianza acustica delle parole e l'insieme di parole viene organizzato ad albero. 16. Sistema secondo la rivendicazione 14, caratterizzato dal fatto che detto secondo insieme di vincoli viene imposto in modo tale per cui per ogni parola del dizionario l'insieme dei successori effettivamente osservati nel testo di apprendimento viene organizzato ad albero. 17. Sistema secondo la rivendicazione 15 e la 16, caratterizzato dal fatto che esegue una fattorizzazione delle probabilità di detta rete a stati finiti mediante l'applicazione di un procedimento di fattorizzazione delle probabilità, su un albero dell'intero lessico (AL) e su alberi di successori (as(w)). 18. Sistema secondo la rivendicazione 17, caratterizzato dal fatto che per costruire detta rete rappresentante il modello del linguaggio esegue le seguenti operazioni: costruire detto albero dell'intero lessico (AL) per ogni parola del lessico, costruire l'albero dei successori comparenti in detto testo di apprendimento inserire le probabilità fornite dal modello del linguaggio tramite transizioni vuote trasferire le probabilità all'interno degli alberi fattorizzare le probabilità negli alberi eliminare le transizioni vuote superflue etichettare le transizioni vuote rimanenti con un simbolo fittizio etichettare ogni arco con la stringa ottenuta concatenando il fonema o il simbolo fittizio, la probabilità e, se presente, la parola ottimizzare la rete riassegnare ad ogni arco il fonema o il simbolo, la probabilità ed eventualmente la parola a partire dalla stringa ottenuta nell'operazione di etichettatura degli archi. 19. Sistema secondo la rivendicazione 18, caratterizzato dal fatto che detta operazione di fattorizzare le probabilità negli alberi comprende un procedimento costituito dalle seguenti operazioni (si veda la Figura 2): in cui: T è l'albero da fattorizzare; a, b, n, s sono stati di T; r è la radice di T; F(n) è l'insieme degli stati successori dello stato n; p(a, b) è la probabilità dell'arco da a a b. il tutto sostanzialmente come descritto ed illustrato e per gli scopi specificati.
IT95TO000200A 1995-03-17 1995-03-17 Sistema di riconoscimento di parlato continuo IT1279171B1 (it)

Priority Applications (5)

Application Number Priority Date Filing Date Title
IT95TO000200A IT1279171B1 (it) 1995-03-17 1995-03-17 Sistema di riconoscimento di parlato continuo
AT96104031T ATE223610T1 (de) 1995-03-17 1996-03-14 Einrichtung zur erkennung kontinuierlich gesprochener sprache
EP96104031A EP0732685B1 (en) 1995-03-17 1996-03-14 A system for recognizing continuous speech
DE69623364T DE69623364T2 (de) 1995-03-17 1996-03-14 Einrichtung zur Erkennung kontinuierlich gesprochener Sprache
US08/616,343 US5765133A (en) 1995-03-17 1996-03-15 System for building a language model network for speech recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
IT95TO000200A IT1279171B1 (it) 1995-03-17 1995-03-17 Sistema di riconoscimento di parlato continuo

Publications (3)

Publication Number Publication Date
ITTO950200A0 ITTO950200A0 (it) 1995-03-17
ITTO950200A1 true ITTO950200A1 (it) 1996-09-17
IT1279171B1 IT1279171B1 (it) 1997-12-04

Family

ID=11413363

Family Applications (1)

Application Number Title Priority Date Filing Date
IT95TO000200A IT1279171B1 (it) 1995-03-17 1995-03-17 Sistema di riconoscimento di parlato continuo

Country Status (5)

Country Link
US (1) US5765133A (it)
EP (1) EP0732685B1 (it)
AT (1) ATE223610T1 (it)
DE (1) DE69623364T2 (it)
IT (1) IT1279171B1 (it)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU5027796A (en) 1995-03-07 1996-09-23 Interval Research Corporation System and method for selective recording of information
US5952942A (en) * 1996-11-21 1999-09-14 Motorola, Inc. Method and device for input of text messages from a keypad
US6172675B1 (en) * 1996-12-05 2001-01-09 Interval Research Corporation Indirect manipulation of data using temporally related data, with particular application to manipulation of audio or audiovisual data
US6263507B1 (en) 1996-12-05 2001-07-17 Interval Research Corporation Browser for use in navigating a body of information, with particular application to browsing information represented by audiovisual data
US5893062A (en) 1996-12-05 1999-04-06 Interval Research Corporation Variable rate video playback with synchronized audio
US6006186A (en) * 1997-10-16 1999-12-21 Sony Corporation Method and apparatus for a parameter sharing speech recognition system
US6418431B1 (en) * 1998-03-30 2002-07-09 Microsoft Corporation Information retrieval and speech recognition based on language models
AU1067900A (en) 1998-11-25 2000-06-13 Entropic Limited Network and language models for use in a speech recognition system
JP2001051690A (ja) * 1999-08-16 2001-02-23 Nec Corp パターン認識装置
US7155735B1 (en) 1999-10-08 2006-12-26 Vulcan Patents Llc System and method for the broadcast dissemination of time-ordered data
US6757682B1 (en) 2000-01-28 2004-06-29 Interval Research Corporation Alerting users to items of current interest
EP1285434A1 (fr) * 2000-05-23 2003-02-26 Thomson Licensing S.A. Modeles de language dynamiques pour la reconnaissance de la parole
US7031908B1 (en) 2000-06-01 2006-04-18 Microsoft Corporation Creating a language model for a language processing system
US6865528B1 (en) * 2000-06-01 2005-03-08 Microsoft Corporation Use of a unified language model
US8229753B2 (en) * 2001-10-21 2012-07-24 Microsoft Corporation Web server controls for web enabled recognition and/or audible prompting
US7711570B2 (en) * 2001-10-21 2010-05-04 Microsoft Corporation Application abstraction with dialog purpose
US7171358B2 (en) * 2003-01-13 2007-01-30 Mitsubishi Electric Research Laboratories, Inc. Compression of language model structures and word identifiers for automated speech recognition systems
US20040138883A1 (en) * 2003-01-13 2004-07-15 Bhiksha Ramakrishnan Lossless compression of ordered integer lists
US8301436B2 (en) * 2003-05-29 2012-10-30 Microsoft Corporation Semantic object synchronous understanding for highly interactive interface
US7200559B2 (en) * 2003-05-29 2007-04-03 Microsoft Corporation Semantic object synchronous understanding implemented with speech application language tags
US8160883B2 (en) * 2004-01-10 2012-04-17 Microsoft Corporation Focus tracking in dialogs
CN101454826A (zh) * 2006-05-31 2009-06-10 日本电气株式会社 语音识别词典/语言模型制作系统、方法、程序,以及语音识别系统
US8543393B2 (en) * 2008-05-20 2013-09-24 Calabrio, Inc. Systems and methods of improving automated speech recognition accuracy using statistical analysis of search terms
US9069755B2 (en) * 2010-03-11 2015-06-30 Microsoft Technology Licensing, Llc N-gram model smoothing with independently controllable parameters

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4831550A (en) * 1986-03-27 1989-05-16 International Business Machines Corporation Apparatus and method for estimating, from sparse data, the probability that a particular one of a set of events is the next event in a string of events
US4882759A (en) * 1986-04-18 1989-11-21 International Business Machines Corporation Synthesizing word baseforms used in speech recognition
US4829576A (en) * 1986-10-21 1989-05-09 Dragon Systems, Inc. Voice recognition system
US5033087A (en) * 1989-03-14 1991-07-16 International Business Machines Corp. Method and apparatus for the automatic determination of phonological rules as for a continuous speech recognition system
US5349645A (en) * 1991-12-31 1994-09-20 Matsushita Electric Industrial Co., Ltd. Word hypothesizer for continuous speech decoding using stressed-vowel centered bidirectional tree searches
DE69322894T2 (de) * 1992-03-02 1999-07-29 At & T Corp., New York, N.Y. Lernverfahren und Gerät zur Spracherkennung
US5467425A (en) * 1993-02-26 1995-11-14 International Business Machines Corporation Building scalable N-gram language models using maximum likelihood maximum entropy N-gram models
US5621859A (en) * 1994-01-19 1997-04-15 Bbn Corporation Single tree method for grammar directed, very large vocabulary speech recognizer

Also Published As

Publication number Publication date
EP0732685A3 (en) 1998-02-11
EP0732685B1 (en) 2002-09-04
DE69623364D1 (de) 2002-10-10
US5765133A (en) 1998-06-09
DE69623364T2 (de) 2003-05-15
ATE223610T1 (de) 2002-09-15
EP0732685A2 (en) 1996-09-18
IT1279171B1 (it) 1997-12-04
ITTO950200A0 (it) 1995-03-17

Similar Documents

Publication Publication Date Title
ITTO950200A1 (it) Sistema di riconoscimento di parlato continuo
JP6818941B2 (ja) 多言語音声認識ネットワークをトレーニングする方法、音声認識システム及び多言語音声認識システム
JP2677758B2 (ja) 言語モデリング・システムを形成する方法
Higuchi et al. BERT meets CTC: New formulation of end-to-end speech recognition with pre-trained masked language model
US20040167778A1 (en) Method for recognizing speech
CN107705787A (zh) 一种语音识别方法及装置
CN106683677A (zh) 语音识别方法及装置
Palaskar et al. Acoustic-to-word recognition with sequence-to-sequence models
KR102305672B1 (ko) 강인한 음성인식을 위한 음향 및 언어모델링 정보를 이용한 음성 끝점 검출 방법 및 장치
CN115831102A (zh) 基于预训练特征表示的语音识别方法、装置及电子设备
WO2018066436A1 (ja) 音響モデルの学習装置及びそのためのコンピュータプログラム
JP2006243728A (ja) 音素をテキストに変換する方法、そのコンピュータシステム、及びコンピュータプログラム
Li et al. Multi-encoder multi-resolution framework for end-to-end speech recognition
Tran et al. Joint modeling of text and acoustic-prosodic cues for neural parsing
Soltau et al. Reducing the computational complexity for whole word models
Huang et al. Exploring model units and training strategies for end-to-end speech recognition
Fukuda et al. Global RNN Transducer Models For Multi-dialect Speech Recognition.
Rai et al. Keyword spotting--Detecting commands in speech using deep learning
Johansen A comparison of hybrid HMM architecture using global discriminating training
Scharenborg et al. Building an ASR System for Mboshi Using A Cross-Language Definition of Acoustic Units Approach.
Wang et al. Token-wise training for attention based end-to-end speech recognition
Patil et al. Streaming bilingual end-to-end asr model using attention over multiple softmax
Feng et al. Exploiting Speaker and Phonetic Diversity of Mismatched Language Resources for Unsupervised Subword Modeling.
Krishna Multilingual speech recognition for low-resource Indian languages using multi-task conformer
Driesen Fast word acquisition in an NMF-based learning framework

Legal Events

Date Code Title Description
0001 Granted
TA Fee payment date (situation as of event date), data collected since 19931001

Effective date: 19990331