ES2312851T3 - Procedimiento y sistema texto a voz y el programa informatico asociado. - Google Patents

Procedimiento y sistema texto a voz y el programa informatico asociado. Download PDF

Info

Publication number
ES2312851T3
ES2312851T3 ES03799483T ES03799483T ES2312851T3 ES 2312851 T3 ES2312851 T3 ES 2312851T3 ES 03799483 T ES03799483 T ES 03799483T ES 03799483 T ES03799483 T ES 03799483T ES 2312851 T3 ES2312851 T3 ES 2312851T3
Authority
ES
Spain
Prior art keywords
language
phonemes
phoneme
categories
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
ES03799483T
Other languages
English (en)
Inventor
Leonardo Loquendo S.p.A. BADINO
Claudia Loquendo S.p.A. BAROLO
Silvia Loquendo S.p.A. QUAZZA
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Loquendo SpA
Original Assignee
Loquendo SpA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Loquendo SpA filed Critical Loquendo SpA
Application granted granted Critical
Publication of ES2312851T3 publication Critical patent/ES2312851T3/es
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Devices For Executing Special Programs (AREA)

Abstract

Un procedimiento para la conversión texto a voz deUn procedimiento para la conversión texto a voz de un texto (T1,..., Tn) en una primera lengua inclu un texto (T1,..., Tn) en una primera lengua incluyendo secciones en al menos una segunda lengua, cayendo secciones en al menos una segunda lengua, caracterizado por el hecho de que incluye las etapasracterizado por el hecho de que incluye las etapas de: - convertir (30) dichas secciones de dicha se de: - convertir (30) dichas secciones de dicha segunda lengua en conjuntos de fonemas de dicha segugunda lengua en conjuntos de fonemas de dicha segunda lengua, - asignar (40; 40b) al menos parte de nda lengua, - asignar (40; 40b) al menos parte de dichos fonemas de dicha segunda lengua a conjuntosdichos fonemas de dicha segunda lengua a conjuntos de fonemas de dicha primera lengua, - incluyendo de fonemas de dicha primera lengua, - incluyendo dichos conjuntos de fonemas de dicha primera lengudichos conjuntos de fonemas de dicha primera lengua resultante de dicha asignación en el flujo de foa resultante de dicha asignación en el flujo de fonemas, y - generar (50) una señal de voz a partir nemas, y - generar (50) una señal de voz a partir de dicho flujo de fonemas resultante. donde dicha de dicho flujo de fonemas resultante. donde dicha etapa de asignación (40) incluye las operaciones detapa de asignación (40) incluye las operaciones de: - llevar a cabo pruebas de similitud entre cadae: - llevar a cabo pruebas de similitud entre cada dicho fonema de dicha segunda lengua estando asig dicho fonema de dicha segunda lengua estando asignada y un conjunto de fonemas de asignación candidnada y un conjunto de fonemas de asignación candidatos de dicha primera lengua, estando dichas pruebatos de dicha primera lengua, estando dichas pruebas de similitud realizadas representando dichos foas de similitud realizadas representando dichos fonemas de dicha segunda lengua y dichos fonemas de nemas de dicha segunda lengua y dichos fonemas de asignación candidatos de dicha primera lengua comoasignación candidatos de dicha primera lengua como vectores de categorías, donde un vector represent vectores de categorías, donde un vector representativo de categorías fonéticas de cada dicha segundativo de categorías fonéticas de cada dicha segunda lengua está sujeto a la comparación con un conjua lengua está sujeto a la comparación con un conjunto de vectores de categoría representativos de lanto de vectores de categoría representativos de la bases fonética categoría a categoría, - asignar v bases fonética categoría a categoría, - asignar valores de puntuación respectivos a dichas comparacalores de puntuación respectivos a dichas comparaciones categoría a categoría, estando dichos valoreiones categoría a categoría, estando dichos valores de puntuación respectivos agregados para generars de puntuación respectivos agregados para generar puntuaciones respectivas a los resultados de dich puntuaciones respectivas a los resultados de dichas pruebas, y - asignar (40b) cada dicho fonema deas pruebas, y - asignar (40b) cada dicho fonema de dicha segunda lengua a un conjunto de fonemas de dicha segunda lengua a un conjunto de fonemas de asignación de dicha primera lengua seleccionada deasignación de dicha primera lengua seleccionada de dichos fonemas de asignación candidatos como una dichos fonemas de asignación candidatos como una función de dichas puntuaciones. función de dichas puntuaciones.

Description

Procedimiento y sistema texto a voz y el programa informático asociado.
Campo de la técnica
La presente invención se refiere a técnicas de texto a voz, concretamente las técnicas que permiten que un texto escrito se transforme en una señal de voz inteligible.
Descripción de la técnica relacionada
Los sistemas de texto a voz se conocen por estar basados en la denominada "síntesis concatenativa por selección de unidades". Esto requiere una base de datos que incluya frases pregrabas pronunciadas por hablantes nativos. La base de datos vocálica es de una sola lengua, ya que todas las frases se escriben y se pronuncian en la lengua del hablante.
Los sistemas de texto a voz de este tipo pueden, por tanto, "leer" correctamente solo los textos escritos en la lengua del hablante, mientras que cualquier palabra extranjera incluida en el texto solo se podrá pronunciar de manera inteligible si se incluye (junto con su fonetización correcta) en el léxico proporcionado como refuerzo del sistema texto a voz. Consecuentemente, los textos plurilingües solo pueden leerse correctamente en dichos sistemas cambiando la voz del hablante en el caso de un cambio en la lengua. Esto provoca un efecto que no suele ser agradable, y resulta cada vez más evidente cuando los cambios en la lengua ocurren frecuentemente y son de corta duración.
Adicionalmente, un hablante corriente que tenga que pronunciar palabras extranjeras de un texto en su propia lengua, normalmente tendrá tendencia a pronunciar esas palabras de un modo diferente, y también significativamente, a la manera correcta de pronunciar las mismas palabras cuando se incluyen en un texto completo en la lengua extranjera correspondiente.
A modo de ejemplo, un hablante británico o americano que tenga que pronunciar, por ejemplo, un nombre o apellido italiano incluido en un texto en inglés adoptará, en condiciones generales, una pronunciación bastante diferente a la pronunciación tomada por un hablante nativo de italiano a la hora de pronunciar el mismo nombre y apellido. Correspondientemente, una persona que hable inglés y que escuche el mismo texto hablado, generalmente pensará que el nombre y apellido italianos son más fáciles de entender (aproximadamente como mínimo) si han sido pronunciados como esperaba de forma "tergiversada" por un hablante inglés que si los hubiera pronunciado con la correcta pronunciación italiana.
De forma similar, la pronunciación de, por ejemplo, el nombre de una ciudad en Reino Unido o Estados Unidos incluida en un texto italiano leído por un hablante italiano adoptando la pronunciación de inglés británico o americano correcta normalmente se considerará como una sofisticación excesiva y, como tal, se rechazará en el uso común.
El problema de leer un texto plurilingüe ya se ha abordado en el pasado adoptando dos enfoques diferentes.
Por una parte, se realizaron intentos de producir bases de datos plurilingües recurriendo a hablantes bilingües o plurilingües. Un ejemplo de dicho enfoque es el artículo de C. Traber et al.: "From multilingual to polyglot speech synthesis" - Proceedings of the Eurospeech, páginas 835-838, 1999.
Este enfoque se basa en supuestos (esencialmente, la disponibilidad de un hablante plurilingüe) que son difíciles de encontrar y reproducir. Además, dicho enfoque no suele solucionar el problema asociado generalmente a las palabras extranjeras incluidas en un texto que se espera que se pronuncien de manera diferente (posiblemente notable) a la correcta pronunciación en la lengua correspondiente.
Otro enfoque es adoptar un transcriptor de lengua extranjero y los fonemas producidos en su producción que, para ser pronunciados, se asignan a los fonemas de las lenguas de la voz hablante. Un ejemplo de este último enfoque son los trabajos de W.N. Campbell "Foreign-language speech synthesis" Proceedings ESCA/COCSDA ETRW on Speech Synthesis, Jenolan Caves, Australia, 1998 and "Talking Foreign. Concatenative Speech Synthesis and Language Barrier", Proceedings of the Eurospeech Scandinavia, pages 337 - 340, 2001.
Los trabajos de Campbell tienen como objetivo esencial sintetizar un texto bilingüe por ejemplo, en inglés y japonés, basándose en la voz generada partiendo de una base de datos japonesa monolingüe. Si la voz hablante es japonesa y el texto de entrada inglés, se activa un transcriptor inglés para producir fonemas ingleses. La similitud se evalúa según las categorías fonético-articulatorias. Un módulo de asignación fonético asigna cada fonema inglés a un fonema japonés correspondiente, similar. Esta similitud se evalúa basándose en las categorías fonético-articulatorias. La asignación se lleva a cabo mediante una búsqueda en una tabla de consulta que proporciona una correspondencia entre los fonemas japoneses y los ingleses.
Como etapa subsiguiente, las diversas unidades acústicas destinadas a componer la lectura realizada por un voz japonesa se seleccionan de la base de datos japonesa basándose en sus similitudes acústicas con las señales generadas al sintetizar el mismo texto con una voz inglesa.
La parte principal del procedimiento propuesto por Campbell es una tabla de consulta que expresa la correspondencia entre fonemas en las dos lenguas. Dicha tabla se crea manualmente investigando las características de las dos lenguas en cuestión.
En principio, dicho enfoque es aplicable a cualquier otro par de lenguas, pero cada par de lenguas requiere un análisis explícito de la correspondencia entre ellos. Dicho enfoque es de algún modo incómodo, y de hecho prácticamente inviable en el caso de un sistema de síntesis que incluya más de dos lenguas, ya que el número de parejas de lenguas a tener en cuenta sería demasiado alto.
Adicionalmente, se suele utilizar más de un hablante para cada lengua, teniendo sistemas fonológicos al menos algo diferentes. Para que cualquier voz hablante esté en condiciones de hablar todas las lenguas disponibles, sería necesaria una tabla para cada voz-par de lenguas.
En el caso de un sistema de síntesis que incluya N lenguas y M voces hablantes (evidentemente, M es igual o mayor que N), con tablas de consulta para la primera etapa de asignación fonética, si los fonemas de una voz hablante se asignan a los de una sola voz para cada lengua extranjera, entonces se tendrán que crear N-1 tablas diferentes para cada voz hablante, resultando así en un total de N*(M-1) tablas de consulta.
En el caso de un sistema de síntesis que funcione con quince lenguas y dos voces hablantes para cada lengua (que se corresponde con la disposición actual adoptada en el sistema texto a voz de Loquendo TTS desarrollado por el cesionario de la presente invención), se necesitarían 435 tablas de consulta. Este dato es bastante importante, especialmente si se tiene en cuenta la posible necesidad de generar dichas tablas de consulta manualmente.
Ampliar dicho sistema para incluir solo una voz hablante que hable una lengua nueva requeriría añadir M+N=45 nuevas tablas. En ese sentido, se debe tener en cuenta que frecuentemente se añaden nuevos fonemas a los sistemas de texto a voz para una o más lenguas, siendo un caso frecuente que el nuevo fonema añadido sea un alófono de un fonema que ya existe en el sistema. En ese caso, existirá la necesidad de revisar y modificar todas las tablas de consulta que pertenezcan a la(s) lengua (s) en las que se ha(n) añadido el nuevo fonema.
Objeto y resumen de la invención
En vista de lo explicado anteriormente, existe la necesidad de mejorar los sistemas texto a voz para que prescindan de los inconvenientes de la técnica anterior en cuanto a las disposiciones descritas anteriormente. Más específicamente, el objeto de la presente invención es proporcionar un sistema texto a voz multilingüe que:
- pueda prescindir del requisito de confiar en hablantes plurilingües, y
- pueda implementarse recurriendo a estructuras simples, requiriendo memorias moderadas, y que al mismo tiempo prescinda también de la necesidad de generar (posiblemente de forma manual) un número relevante de tablas de consulta, especialmente cuando el sistema se mejora con la adición de un fonema nuevo para una o varias lenguas.
Según la presente invención, este objeto se consigue mediante un procedimiento que tenga las características expuestas en la reivindicación 1. La invención también hace referencia al sistema texto a voz correspondiente, como se expone en la reivindicación 7, y un producto de un programa informático que se puede cargar en la memoria de al menos un ordenador y que comprenda porciones de código de software para realizar las etapas del procedimiento de la invención cuando el producto se ejecuta en un ordenador, como se expone en la reivindicación 13. Como se utiliza aquí, la referencia a dicho producto de programa informático se intenta que sea equivalente a la referencia de soportes legibles por ordenador que contengan instrucciones para controlar un sistema informático para coordinar la realización del procedimiento de la invención. La referencia "al menos un ordenador" está evidentemente dirigida a resaltar la posibilidad de que el sistema de la invención se implemente de forma distribuida.
Una realización preferida de la invención es, por tanto, una disposición para la conversión texto a voz de un texto en una primera lengua incluyendo secciones en como mínimo una segundo lengua, incluyendo:
-
un grafema/morfema transcriptor para convertir dichas secciones de dicha segunda lengua en fonemas de dicha segunda lengua,
-
un módulo de asignación configurado para asignar como mínimo una parte de dichos fonemas de dicha segunda lengua a conjuntos de fonemas de dicha primera lengua.
-
un módulo de síntesis de voz adaptado para ser alimentado por un flujo de fonemas resultante que incluya dichos conjuntos de fonemas de dicha primera lengua resultantes de dicha asignación y del flujo de fonemas de dicha primera lengua representativos de dicho texto, y para generar una señal de voz a partir de dicho flujo de fonemas resultante; el módulo de asignación está configurado para:
-
llevar a cabo pruebas de similitud entre cada uno de dichos fonemas de dicha segunda lengua que están siendo asignados y un conjunto de fonemas de asignación candidatos de dicha primera lengua,
\global\parskip0.930000\baselineskip
-
asignar las respectivas puntuaciones a los resultados de dichas pruebas, y
-
asignar dicho fonema de dicha segunda lengua en un conjunto de fonemas de asignación de dicha primera lengua seleccionada fuera de dichos fonemas de asignación candidatos como una función de dichas puntuaciones.
Preferentemente, el módulo de asignación está configurado para asignar dicho fonema de dicha segunda lengua a un conjunto de fonemas de asignación de dicha primera lengua seleccionado entre:
-
un conjunto de fonemas de dicha primera lengua incluyendo tres, dos o un fonema de dicha primera lengua, o
-
un conjunto vacío, mediante el que no se incluye ningún fonema en dicho flujo resultante para dicho fonema en dicha segunda lengua.
Generalmente, la asignación a dicho conjunto vacío de fonemas de dicha primera lengua ocurre en los fonemas de dicha segunda lengua en los que ninguna de dichas puntuaciones puede alcanzar un valor umbral.
El flujo de fonemas resultante puede ser, por tanto, pronunciado por una voz hablante de dicha primera lengua.
Esencialmente, la disposición aquí descrita está basada en una disposición de asignación fonética donde cada una de las voces hablantes incluidas en el sistema es capaz de leer un texto plurilingüe sin modificar la base de datos vocálica. Específicamente, una realización preferida de la disposición descrita busca, entre los fonemas presentes en la tabla para la lengua de la voz hablante, el fonema que resulta más parecido al fonema de la lengua extranjera recibido como entrada. El grado de similitud entre los dos fonemas se puede expresar sobre la base de rasgos fonético-articulatorios, como se define, por ejemplo, según el AFI estándar. Una tabla de asignación fonética cuantifica el grado de afinidad/similitud de las categorías fonéticas y la importancia de cada una de ellas en la comparación ente fonemas.
La disposición aquí descrita no incluye ninguna comparación "acústica" entre los segmentos incluidos en la base de datos de la lengua de la voz hablante y la señal sintetizada mediante la voz hablante de la lengua extranjera. Consecuentemente, toda la disposición es menos incómoda desde el punto de vista computacional y prescinde de la necesidad de que el sistema tenga una voz hablante disponible para la lengua extranjera: solo el transcriptor grafema-morfema será suficiente.
Adicionalmente, la asignación fonética es independiente de la lengua. La comparación entre fonemas se refiere exclusivamente al vector de los rasgos fonéticos asociados a cada fonema, siendo de hecho estos rasgos independientes de la lengua. El módulo de asignación, por tanto, no es "consciente" de las lenguas implicadas, lo que significa que no existen requisitos para ninguna actividad específica que se tenga que realizar (posiblemente de forma manual) para cada par de lenguas (o para cada par voz-lengua) en el sistema. Además, la incorporación de nuevas lenguas o nuevos fonemas al sistema no precisa modificaciones en el módulo de asignación fonética.
Sin pérdidas en cuestiones de efectividad, la disposición aquí descrita lleva a una simplificación apreciable en comparación con el sistema de la técnica anterior, mientras que también implica un mayor grado de generalización respecto a las soluciones previas.
Los experimentos llevados a cabo muestran que el objeto de utilizar una voz hablante monolingüe para hablar lenguas extranjeros de manera inteligible se consigue por completo.
Breve descripción de los dibujos adjuntos
La invención se describirá ahora solo mediante un ejemplo refiriéndose a las figuras anexas del dibujo, donde:
- la figura 1 es un diagrama de bloques de un sistema texto a voz adaptado para incorporar las mejoras aquí descritas, y
- las figuras 2 a 8 son diagramas de flujo que ejemplifican un posible funcionamiento del sistema texto a voz de la figura 1.
Descripción detallada de las realizaciones preferidas de la invención
El diagrama de bloques de la figura 1 muestra la arquitectura general de un sistema texto a voz de tipo plurilingüe.
Esencialmente, el sistema de la figura 1 está adaptado para recibir como su texto de llegada que califica básicamente como texto plurilingüe.
En el contexto de la invención, la importancia de la definición de plurilingüe es doble:
- en primer lugar, el texto de entrada es plurilingüe porque se corresponde con un texto escrito en cualquiera de una variedad de lenguas diferentes T1,..., Tn como por ejemplo, quince lenguas diferentes, y
\global\parskip1.000000\baselineskip
- en segundo lugar, cada uno de los textos T1,..., Tn es per se plurilingüe, ya que puede incluir palabras o frases en una o más lenguas distintas a la lengua básica del texto.
El texto T1,..., Tn se proporciona al sistema (generalmente designado 10) en formato de texto electrónico.
El texto originalmente disponible en formas diferentes (por ejemplo, como copias impresas de un texto impreso) se puede pasar fácilmente a formato electrónico recurriendo a técnicas como la lectura de escáner OCR. Estos métodos son muy conocidos en la técnica, siendo por tanto innecesario proporcionar una descripción detallada.
Un primer bloque en el sistema 10 está representado por un módulo de reconocimiento del lenguaje 20 adaptado para reconocer tanto el lenguaje básico de un texto de entrada en el sistema como la(s) lengua(s) de cualquier palabra o frase extranjera incluida en el texto básico.
De nuevo, los módulos adaptados para realizar automáticamente dicha función de reconocimiento de la lengua son muy conocidos en la técnica (por ejemplo, por los correctores ortográficos de los sistemas de procesamiento de texto), siendo por tanto innecesario proporcionar una descripción detallada.
A continuación, al describir una realización ejemplar de la invención, se hará referencia a una situación en la que el texto de entrada básico es un texto italiano que incluye palabras o frases cortas en inglés. La voz hablante también será italiana.
A continuación del módulo de reconocimiento del lenguaje 20 hay tres módulos 30, 40 y 50, uno detrás del otro.
Específicamente, el módulo 30 es un transcriptor grafema/morfema adaptado para segmentar el texto recibido como una entrada en grafemas (por ejemplo, letras o grupos de letras) y convertirlo en un flujo de fonemas correspondiente. El módulo 30 puede ser un transcriptor grafema/fonema de un tipo conocido incluido en el sistema texto a voz Loquendo TTS, ya mencionado anteriormente.
Esencialmente, la salida del módulo 30 será un flujo de fonemas incluyendo fonemas en el lenguaje básico del texto de entrada (por ejemplo, italiano) que se hayan descompuesto en "ráfagas" de fonemas en la(s) lengua(s) (por ejemplo, inglés) consistiendo en las palabras o frases cortas de la lengua extranjera incluidas en el texto básico.
La referencia 40 designa una tabla de asignación cuya estructura y funcionamiento se detallará más adelante. Básicamente, el módulo 40 convierte el flujo mixto de fonemas que salen del módulo 30, comprendiendo tanto los fonemas del lenguaje básico (italiano) del texto de entrada como los fonemas de la lengua extranjera (inglés), en un flujo de fonemas que incluyen solo fonemas de la primera lengua básica, concretamente italiano en el ejemplo considerado.
Finalmente, el módulo 50 es un módulo de síntesis de voz adaptado para generar a partir del flujo de fonemas (italianos) procedentes del módulo 40 una señal de voz sintetizada que se proporcionará a un altavoz 60 para que genere una señal de voz acústica correspondiente para que sea percibida, escuchada y entendida por los hombres.
Un módulo de síntesis de señal de voz como el módulo 60 mostrado aquí es un componente básico de cualquier señal texto a voz, siendo por tanto innecesario proporcionar aquí una descripción detallada.
A continuación se describe el funcionamiento del módulo 40.
Esencialmente, el módulo 40 está compuesto de una primera y segunda porción designada 40a y 40b, respectivamente.
La primera porción 40a está configurada esencialmente para pasar al módulo 50 aquellos fonemas que ya son fonemas de la lengua básica (italiano, en el ejemplo considerado).
El segundo punto 40b incluye una tabla de fonemas de la voz hablante (italiano) y recibe como una entrada el flujo de fonemas en lengua extranjera (inglés) que se tienen que asignar a los fonemas de la lengua de la voz hablante (italiano) para permitir que dicha voz los pronuncie.
Como se indica anteriormente, el módulo 20 indica al módulo 40 cuando, dentro del marco de un texto en una lengua dada, aparece una palabra o frase en una lengua extranjera. Esto ocurre gracias a un "cambio de señal" enviado por el módulo 20 al módulo 40 por encima de la línea 24.
De nuevo se recuerda que la referencia al italiano y al inglés como dos lenguas implicadas en el proceso de conversión texto a voz tiene simplemente una naturaleza ejemplar. De hecho, una ventaja básica de la disposición aquí descrita reside en que la asignación fonética, como se realiza en la porción 40b del módulo 40, es independiente del lenguaje. El módulo 40 no es consciente de las lenguas implicadas, lo que significa que no existen requisitos para que se lleve a cabo (posiblemente de forma manual) cualquier actividad específica para cada par de lenguas (o cada par voz-lengua) en el sistema.
Esencialmente, en el módulo 40 cada fonema de lengua extranjera se compara con todos los fonemas presentes en la tabla (que también puede incluir fonemas que, per se, no son fonemas de la lengua básica).
Consecuentemente, un número variable de fonemas de salida puede corresponder a cada fonema de entrada: por ejemplo, tres fonemas, dos fonemas, un fonema o ningún fonema.
Por ejemplo, un diptongo extranjero se comparará con los diptongos de la voz hablante así como con parejas de vocales.
Se asocia una puntuación con cada comparación realizada.
Los fonemas finalmente elegidos serán aquellos que tengan la mayor puntuación y un valor mayor que el valor umbral. Si ninguno de los fonemas en la voz hablante alcanza el valor umbral, el fonema de la lengua extranjera se asignará a un fonema cero y, por tanto, no se producirá ningún sonido para ese fonema.
Cada fonema está definido de una manera inequívoca mediante un vector de n categorías fonético-articulatorias de longitudes variables. Las categorías, definidas según el estándar AFI, son las siguientes:
-
(a) las dos categorías básicas vocal y consonante;
-
(b) la categoría diptongo;
-
(c) las características vocálicas (por ejemplo, vocal) acentuada/no acentuada, no silábica, larga, nasal, ró- {}\hskip0.4cm tica, redondeada;
-
(d) las categorías vocálicas anterior, central, posterior;
-
(e) las categorías vocálicas cerrada, cerrada-mediocerrada, mediocerrada, mediocerrada, media, medioa- {}\hskip0.4cm bierta, abierta-medioabierta, abierta;
-
(f) las categorías del modo consonántico oclusiva, nasal, vibrante múltiple, vibrante simple, fricativa, fri- {}\hskip0.4cm cativa lateral, aproximante, lateral, africada;
-
(g) las categorías del lugar consonántico bilabial, labiodental, dental, alveolar, postalveolar, retrofleja, pa- {}\hskip0.4cm latal, velar, uvular, faríngea, glotal; y
-
(h) las otras categorías consonánticas sonora, larga, silábica, aspirada, oclusiva, sorda, semiconsonante.
Actualmente, la categoría semiconsonante no es un rasgo AFI estándar. Esta categoría es una categoría redundante utilizada para simplemente denotar una consonante aproximante/alveolar/palatal o una consonante aproximante-velar.
Las categorías (d) y (e) también describen el segundo componente de un diptongo.
Cada vector contiene una categoría (a), una o ninguna categoría (b) si el fonema es una vocal, una categoría (c) como mínimo si el fonema es una vocal, una categoría (e) si el fonema es una vocal, una categoría (f) si el fonema es una consonante, como mínimo una categoría (g) si el fonema es una consonante y como mínimo una categoría (h) si el fonema es una consonante.
La comparación entre fonemas se realiza mediante la comparación de los vectores correspondientes, repartiendo las puntuaciones respectivas a dichas comparaciones vector por vector.
La comparación entre vectores se realiza comparando las categorías correspondientes, estando dichas puntuaciones respectivas agregadas para generar dichas puntuaciones.
Cada comparación categoría por categoría ha asociado un peso diferenciado, de modo que diferentes comparaciones categoría por categoría pueden tener pesos diferentes a la hora de generar la puntuación correspondiente.
Por ejemplo, una puntuación máxima obtenida comparando categorías (f) siempre será menor que la puntuación obtenida al comparar categorías (g) (por ejemplo, el peso asociado a la comparación de la categoría (f) es mayor que el peso asociado a la comparación de la categoría (g)). Como consecuencia, la afinidad entre vectores (puntuación) estará principalmente influenciada por la similitud entre categorías (f), comprada con la similitud entre categorías (g).
El proceso descrito a continuación utiliza un conjunto de constantes que tiene preferiblemente el siguiente valor;
-
MaxCount = 100
-
Kopen = 14
-
Sstep = 1-
-
Mstep = 2* Lstep
-
Lstep = 4* Mstep
-
Kmode = Kopen + (Lstep * 2)
-
Thr = Kmode
-
Kplace3 = 1
-
Kplace2 = (Kplace3 * 2) + 1
-
Kplace1 = ((Kplace2) * 2) + 1
-
DecrOPen = 5
El funcionamiento del sistema aquí ejemplificado se describirá ahora haciendo referencia a los diagramas de flujo de las figuras 2 a 8 asumiendo que un solo fonema se lleva a la entrada del módulo 40. Si se proporciona una variedad de fonemas como entrada al módulo 40, el proceso descrito a continuación se repetirá para cada fonema de entrada.
A continuación, el fonema que tenga la categoría consonántica de diptongo o africada se denominará fonema divisible.
Al definir las categorías modales y de lugar de un fonema, se intenta que sean unívocas, a menos que se indique lo contrario.
Por ejemplo, si un fonema extranjero (por ejemplo, PhonA) se califica como fricativo-uvular, significa que solo tiene una categoría modal (fricativo) y una categoría de lugar (uvular).
Al hacer referencia primero al diagrama de flujo de la figura 2 en la etapa 100, el índice (Indx) que escanea una tabla de la lengua de la voz hablante (designado a continuación TbB) se pone a cero, concretamente colocado como el primer fonema de la tabla.
El valor de la puntuación (Score) se pone al valor inicial cero, como es el caso de las variables TmpScrMax, FirstMaxScore, Loop y Continue. Los fonemas BestPhon, FirstBest y FirstBestCmp se ponen en el fonema cero.
En una etapa 104 el vector de las categorías para el fonema extranjero (PhonA) se compara con el vector del fonema para la lengua de la voz hablante (PhonB).
Si los dos vectores son idénticos, los dos fonemas serán idénticos y en la etapa 108 la puntuación se retrasa hasta el valor MaxCount y las etapas subsiguientes es la etapa 144.
Si los vectores son diferentes, las categorías básicas (a) se comparan en la etapa 112.
Existen tres alternativas: ambos fonemas son consonantes (128), ambos son vocales (116) o diferentes (140).
En el paso 116 se realiza una comprobación para saber si PhonA es un diptongo. Si así fuera, en una etapa 124 las funciones descritas en el diagrama de flujo de la figura 4 se activan, como de detalla a continuación.
Si no es un diptongo, en una etapa 120, la función descrita en el diagrama de flujo de la figura 5 se activa para comparar una vocal con otra vocal.
Se aprecia que las dos etapas 120 y 124 pueden llevar a una modificación de la puntuación, como se detalla a continuación.
Posteriormente, el proceso continúa hacia la etapa 144.
En una etapa 128 (comparación entre consonantes), se realiza una comprobación para saber si el PhonA es africado. Si así fuera, en una etapa 136 la función descrita en el diagrama de flujo de la figura 7 se activa. Si no, en una etapa 132, la función descrita en la figura 6 se activa para comparar las dos consonantes.
En una etapa 140 las funciones descritas en el diagrama de flujo de la figura 8 se activan, como se detalla a continuación.
De modo similar a continuación se detallan más ampliamente los criterios en los que se basa para poder modificar la puntuación en las etapas 132 y 136.
Posteriormente, el sistema pasa a la etapa 144.
Los resultados de la comparación convergen hacia la etapa 144, donde se lee el valor de la puntuación (Score).
En una etapa 148, el valor de la puntuación se compara con un valor denominado MaxCount. Si el valor de la puntuación iguala el MaxCount, la búsqueda finaliza, lo que significa que se ha encontrado un fonema correspondiente en la lengua de la voz hablante para el PhonA (etapa 152).
Si el valor de la puntuación es inferior que el MaxCount (comprobado en al etapa 148), el proceso avanza a la etapa 156, como se describe en el diagrama de flujo de la figura 3.
En una etapa 160, el valor Continue se compara con el valor 1. Si el resultado es positivo (concretamente Continue igual a 1), el sistema retrocede a la etapa 104 después de establecer el valor Loop al valor 1 y reajustar Continue, Indx y Score a cero. Si no, el sistema pasa a la etapa 164.
Desde aquí, si el PhonA es nasal o rótico y el fonema o fonemas seleccionados no son de ninguno de estos modos, el sistema pasa a la etapa 168, donde el fonema(s) seleccionado(s) está complementado por una forma consonántica TabB, cuyas características fonético-articulatorias permiten simular el sonido nasal o rótico del PhonA.
En una etapa 172, el fonema (o fonemas) seleccionados se envían hacia el módulo de asignación fonética de salida 40 para que sirvan de suministro al módulo 50.
La etapa 200 de la figura 3 se alcanza desde la etapa 156 del diagrama de flujo de la figura 2.
A partir de la etapa 200, el sistema pasa a la etapa 224 siempre que se cumpla una de las dos condiciones:
-
El PhonA es un diptongo que se tiene que asignar a dos vocales;
-
El PhonA es africado, el PhonB no es una consonante africada, pero puede ser el componente de una africada.
\vskip1.000000\baselineskip
El parámetro Loop indica el número de veces que la tabla TabB se ha explorado de arriba a abajo. Su valor puede ser 0 ó 1.
El Loop se ajustará al valor 1 solo si el PhonA es un diptongo o una africada, ya que no es posible alcanzar la etapa 204 con un Loop igual a 1. En la etapa 204 se comprueba la Maximum Condition. Se consigue si el valor de la puntuación (Score) es mayor o igual que ello y el grupo de n rasgos fonéticos para PhonB es menor que el grupo de BestPhon.
Si se cumple la condición, el sistema pasa a la etapa 208, donde el MaxScore se reduce al valor de la puntuación. Y el PhonB se convierte en BestPhon.
En una etapa 212, Indx se compara con TbLen (el número de fonemas en TabB).
Si Indx es mayor o igual que TbLen, el sistema pasa a la etapa 284, que se describe a continuación.
Si Indx es menor, entonces PhonB no es el último fonema de la tabla y el sistema pasa a la etapa 220, donde Indx aumenta en 1.
Si PhonB es el último fonema en la tabla, entonces la búsqueda se termina y el BestPhon (habiendo asociado la puntuación MaxScore) es el fonema candidato para sustituir al PhonA.
En una etapa 224, se comprueba el valor para Loop.
Si Loop es igual a 0, entonces el sistema pasa a la etapa 228, donde se realiza una comprobación para saber si el PhonB es un diptongo o una africada.
Si la comprobación es positiva (por ejemplo, si el PhonB es un diptongo o africado), la siguiente etapa es la etapa 232.
En este punto, en una etapa 232 se comprueba la Maximum Condition entre Score y MaxScore.
Si se alcanza la condición, (por ejemplo, Score es mayor que MaxScore), en una etapa 236 el MaxScore se reduce al valor de Score y el PhonB se convierte en BestPhon.
En una etapa 240 (que se alcanza si la comprobación de la etapa 228 muestra que el PhonB no es diptongo no africado), se realiza un comprobación para saber si existe una Maximum Condition ente Score y TmpScrMAX (con el FirstBestComp en el lugar de BestPhon). Si se consigue (por ejemplo, si Score es mayor que TmpScrMAX) en una etapa 244, TmpScrMax se retrasa mediante el Score y FirstBestComp mediante el PhonB.
En una etapa 248, se realiza una comprobación para saber si el PhonB es el último fonema en TabB (entonces Indx es igual a TabLen).
Si la comprobación es positiva (252), el valor para MaxScore se guarda como la variable FirstMaxScore, y el BestPhon se guarda como FirstBest y, posteriormente, en una etapa 256, Indx se ajusta a 0, mientras que Continue se ajusta a 1 (de modo que también el segundo componente para PhonA se buscará), y Score se ajusta a 0.
Una etapa 260 se alcanza a partir de la etapa 224 si Loop es igual a 1, concretamente si PhonB se examina como un posible segundo componente para PhonA. En una etapa 260, se realiza una comprobación pasa saber si se consigue la máxima condición en comparación con Score y MaxScore (que pertenece a BestPhon).
En una etapa 264, Score se almacena en MaxScore y PhonB en BestPhon en el caso de que se consiga la máxima condición. En una etapa 268, se realiza una comprobación para saber si PhonB es el último fonema de la tabla y, si así es, el sistema pasa a la etapa 272.
En la etapa 272, un fonema muy similar a PhonA se puede seleccionar entre un fonema divisible o una pareja de fonemas en la voz de la lengua del hablante si se ha cumplido la condición que FirstMaxScore es mayor o igual que (TmpScrMax + MaxScore). El valor más alto de los miembros de la relación se almacena como un MaxScore. En el caso de que la elección sea un par de fonemas, será FirstBestCmp y BestPhon. Si no, solo se considerará FirstBest.
Cabe destacar que BestPhon (encontrado en la segunda iteración) no puede ser diptongo o africado. En una etapa 276 Indx se aumenta en 1 y Score se ajusta a 0.
De la etapa 280, el sistema retrocede a la etapa 104.
La etapa 284 se alcanza desde la etapa 272 (o la etapa 2112), cuando se completa la búsqueda. En la etapa 284, se realiza una comparación entre MaxScore y una constante umbral Thr. Si MaxScore es mayor, entonces el fonema candidato (o el par de fonemas) es el substituto para PhonA. Si no, PhonA se asigna al fonema cero.
El diagrama de flujo de la figura 4 es una descripción detallada del bloque 124 del diagrama de la figura 2.
Una etapa 300 se alcanza si PhonA es un diptongo.
En una etapa 302, se realiza una comprobación para saber si PhonB es un diptongo y Loop es igual a 0. Si se cumple, el sistema pasa a la etapa 302 donde, tras comprobar los rasgos para PhonA, el sistema pasa a la etapa 306 si PhonA es un diptongo que se tiene que asignar a una sola vocal.
Los diptongos de este tipo tienen un primer componente que es media y central y el segundo componente es cerrado-semicerrado y posterior.
De la etapa 306, el sistema pasa a la etapa 144. [0117] En una etapa 308, se requiere la función de comparar dos diptongos.
En una etapa 310, las categorías (b) de los dos fonemas se comparan mediante dicha función y Score se aumenta en 1 por cada rasgo común encontrado.
En una etapa 312, los primeros componentes de los dos diptongos se comparan y en una etapa 314 una función denominada F_CasiSpec_Voc se requiere para los dos componentes.
Esta función realiza tres comprobaciones que se cumplen si:
- los componentes de los dos diptongos son indistintamente vocales abiertas, o vocales abierta-medioabierta, anterior y no redondeada;
- el componente de PhonA es abierto y central, y en TabB no existen fonemas que tengan ambas categorías, y PhonB es semicerrado y anterior;
- el componente de PhonA es cerrado, anterior y no redondeado, o cerrado-semicerrado, anterior y redondeado, y en TabB ningún fonema tiene dichos rasgos mientras que PhonB es cerrado posterior y redondeado o cerrado-semicerrado, posterior y redondeado.
Si se cumple alguna de las tres condiciones, en una etapa 316 el valor de Score se retrasa añadiendo (KOpen * 2) al mismo.
Si no, en una etapa 318, se requiere una función F_ValPlace_Voc para los dos componentes.
Dicha función compara las categorías anterior, central y posterior (categoría (d)).
Si son idénticas, Score se aumenta en Kopen; si son diferentes, se añade un valor a Score que está compuesto de Kopen menos la constante DecrOpen si la distancia entre las dos categorías es 1, mientras que Score no se aumenta si la distancia es 2.
Una distancia igual a uno existe entre central y anterior y entre central y posterior, mientras que una distancia igual a dos existe entre anterior y posterior.
En una etapa 320 se requiere una función F_ValOpen_Voc para compara los dos componentes del diptongo. Específicamente, F_ValOpen_Voc funciona de manera cíclica comparando los primeros y los segundos componentes en dos iteraciones posteriores.
La función compara las categorías (e) y añade a Score la constante Kopen menos el valor de la distancia entre las categorías incluida posteriormente en la tabla 1.
La matriz es simétrica, mediante la cual solo se registró la porción superior.
Al realizar un ejemplo numérico, si PhonA es una vocal cerrada y PhonB es una vocal mediocerrada, un valor igual a (KOpen-(6 * Lstep)) se añadirá a Score que, considerando el valor de las constantes, es igual a 8.
En una etapa 322, si ambos componentes tienen el rasgo redondeo, la constante (KOpen + 1) se añade a Score. De forma inversa, si solo uno de los dos es redondeado, entonces Score se reduce por Kopen.
De la etapa 324, el sistema retrocede a la etapa 314 si los dos primeros componentes se han comparado; de forma inversa, una etapa 326 se alcanza cuando también los segundos componentes se han comparado.
En la etapa 326, la comparación de los dos diptongos se termina y el sistema retrocede a la etapa 144.
En una etapa 328, se realiza una comprobación para saber si PhonB es un diptongo y Loop es igual a 1. Si así ocurre, el sistema pasa a la etapa 306.
En una etapa 330, se realiza una comprobación para saber si PhonA es un diptongo que se tiene que asociar a una sola vocal. Si así ocurre, en una etapa 331 Loop se comprueba y, si es igual a 1, se alcanza la etapa 306.
En una etapa 332, se crea un fonema TmpPhonA.
TmpPhonA es una vocal sin características de diptongo y que tiene rasgos de mediocerrada, posterior y redondeada.
Posteriormente, el sistema pasa a una etapa 334, donde TmpPhonA y PhonB se comparan. La comparación se efectúa forzando la comparación entre dos fonemas vocálicos sin categoría de diptongo.
Dicha función, presente también en la etapa 120 del diagrama de flujo de la figura 2, se describe detalladamente en la figura 5.
En una etapa 336, la función se reclama para realizar una comparación entre un componente de PhonA y PhonB: como consecuencia, en una etapa 338, si Loop es igual a 9, el primer componente de PhonA se compara con PhoB (en una etapa 344). De forma inversa, si Loop es igual a 1, el segundo componente de PhonA se compara con PhonB (en una etapa 340).
En la etapa 340, se hace referencia a las categorías nasal y rótica, aumentando Score por cada identidad encontrada.
En una etapa 342, si PhonA tiene un acento en su primer componente y PhonB es una vocal acentuada, Score aumenta en 2. En todos los otros casos se reduce en 2.
En una etapa 344, si PhonA tiene acento en su segundo componente y PhonB es una vocal acentuada, entonces Score aumenta en 2; de lo contrario, se reduce en 2 en el resto de los casos.
En 348, las categorías (d) y (e) del primer o segundo componente de PhonA (dependiendo de si Loop es igual a 0 o 1, respectivamente) se comparan con PhonB.
La comparación de los vectores de rasgos y la actualización de Score está realizada basándose en los mismos principios ya descritos en las etapas de 314 a 322.
Una etapa 350 marca el retroceso a la etapa 144.
El diagrama de flujo de la figura 5 describe detalladamente la etapa 120 del diagrama de la figura 2, concretamente la comparación entre dos vocales que no son diptongos.
En una etapa 400 se realiza una comparación para saber si PhonB es un diptongo. Si así es, el sistema pasa directamente a la etapa 470.
En una etapa 410, se realiza una comparación sobre la base de las categorías (b) aumentado Score en 1 por cada categoría idéntica encontrada.
De forma inversa, en una etapa 420, la función F_CasiSpec_Voc ya descrita anteriormente se reclama para comprobar si se alcanza una de las condiciones de la función.
Si así ocurre, Score se aumenta en la cantidad (KOpen * 2) en una etapa 430.
En el caso de un resultado negativo, en una etapa 440 se reclama la función F_ValPlace_Voc.
Posteriormente, en una etapa 450, se reclama la función F_ValOpen_Voc.
En una etapa 460, si ambas vocales tienen la categoría redondeada, Score aumenta en la constante (KOpen + 1); si, por el contrario, solo se encuentra un fonema con la categoría redondeada, entonces Score aumenta en KOpen.
Una etapa 470 marca el final de la comparación, tras la cual el sistema retrocede a la etapa 144.
El diagrama de flujo de la figura 6 describe detalladamente el bloque 132 del diagrama de la figura 1.
En una etapa 500, se comparan las dos consonantes, mientras que la variable TmpKP se ajusta a 0 y la función F_ CasiSpec_Cons se reclama en una etapa 504.
La función en cuestión comprueba si se cumple alguna de las condiciones siguientes:
1.0
PhonA uvular fricativo y en TabB no hay fonemas con estas características y PhonB es vibrante simple -alveolar;
1.1
PhonA uvular fricativo y en TabB no hay fonemas con estas características y PhonB es aproximante-alveolar;
1.2
PhonA uvular fricativo y en TabB no hay fonemas con estas características y PhonB es uvular-vibrante simple;
1.3
PhonA uvular fricativo y en TabB no hay fonemas con estas características y o con las de PhonB de 1.0 o 1.1 o 1.2, y PhonB es lateral-alveolar;
2.0
PhonA glotal fricativo y en TabB no hay fonemas con estas características y PhonB es fricativo-velar;
3.0
PhonA fricativo-velar y en TabB no hay fonemas con estas características y PhonB es fricativo-glotal o oclusivo-velar;
4.0
PhonA vibrante simple-alveolar y en TabB no hay fonemas con estas características y PhonB es fricativo-uvular;
4.1
PhonA vibrante simple-alveolar y en TabB no hay fonemas con estas características y PhonB es aproximante-alveolar;
4.2
PhonA vibrante simple-alveolar y en TabB no hay fonemas con estas características o con las de PhonB de 4.0 y 4.1, y PhonB es lateral-alveolar;
5.0
PhonA nasal-velar y en TabB no hay fonemas con estas características y PhonB es nasal-alveolar;
5.1
PhonA nasal-velar y en TabB no hay fonemas con estas características o con las de PhonB de 5.0 y PhonB es nasal-bilabial;
6.0
PhonA es fricativo-dental-sordo y en TabB no hay fonemas con estas características y PhonB es aproximante-dental;
6.1
PhonA es fricativo-dental-sordo y en TabB no hay fonemas con estas características o con las de PhonB de 6.0, y PhonB es oclusivo-dental;
6.2
PhonA es fricativo-dental-sordo y en TabB no hay fonemas con estas características o con las de PhonB of 6.0 y PhonB es oclusivo-alveolar;
7.0
PhonA es fricativo-dental-sonoro y en TabB no hay fonemas con estas características y PhonB es aproximante-dental;
7.1
PhonA es fricativo-dental-sonoro y en TabB no hay fonemas con estas características o con las de PhonB de 7.0 y PhonB es oclusivo-dental;
7.2
PhonA es fricativo-dental-sonoro y en TabB no hay fonemas con estas características o las de PhonB de 7.0 y PhonB es oclusivo-alveolar;
8.0
PhonA es fricativo-palatal-alveolar-sordo y en TabB no hay fonemas con estas características y PhonB es fricativo-postalveolar;
8.1
PhonA es fricativo-palatal-alveolar-sordo y en TabB no hay fonemas con estas características o las de PhonB de 8.0 y PhonB es fricativo-palatal;
9.0
PhonA es fricativo-postalveolar y en TabB no hay fonemas con estas características o fricativas-retroflejas y PhonB es fricativo-alveolar-palatal;
10.0
PhonA es fricativo-postalveolar-velar y en TabB no hay fonemas con estas características y PhonB es fricativo-alveolar-palatal;
10.1
PhonA es fricativo-postalveolar-velar y en TabB no hay fonemas con estas características y PhonB es fricativo-palatal;
10.2
PhonA es fricativo-postalveolar-velar y en TabB no hay fonemas con estas características o las de 10.0 o 10.1 y PhonB es fricativo-postalveolar;
11.0
PhonA es oclusivo-palatal y en TabB no hay fonemas con estas características y PhonB es lateral-palatal;
11.1
PhonA es oclusivo-palatal y en TabB no hay fonemas con estas características o las de PhonB de 11.0 y PhonB es fricativo-palatal o aproximante-palatal;
12.0
PhonA es fricativo-bilabial-dental-sonoro y en TabB no hay fonemas con estas características y PhonB es aproximante-bilabial-sonoro;
13.0
PhonA es fricativo-palatal-sonoro y en TabB no hay fonemas con estas características y PhonB es oclusivo-palatal-sonoro o aproximante-palatal-sonoro;
14.0
PhonA es lateral-palatal y en TabB no hay fonemas con estas características y PhonB es oclusivo-palatal;
14.1
PhonA es lateral-palatal y en TabB no hay fonemas con estas características o las de PhonB of 14.0 y PhonB es fricativo-palatal o aproximante-palatal;
15.0
PhonA es aproximante-dental y en TabB no hay fonemas con estas características y PhonB es oclusivo-dental o oclusivo-alveolar;
16.0
PhonA es aproximante-bilabial y en TabB no hay fonemas con estas características y PhonB es oclusivo-bilabial;
17.0
PhonA es aproximante-velar y en TabB no hay fonemas con estas características y PhonB es oclusivo- velar;
18.0
PhonA es aproximante-alveolar y en TabB no hay fonemas con estas características y PhonB es vibrante simple-alveolar o fricativo-uvular o vibrante simple-uvular;
18.1
PhonA es aproximante-alveolar y en TabB no hay fonemas con estas características o las de PhonB en 18.0 y PhonB es lateral-alveolar.
\vskip1.000000\baselineskip
Si cualquiera de estas condiciones se cumple, el sistema pasa a la etapa 508, donde TmpPhonB se substituye por PhonB durante todo el proceso de comparación hasta una etapa 552.
Si no se cumple ninguna de las condiciones anteriores, el sistema pasa directamente a la etapa 512, donde se comparan las categorías (f) modales.
Si PhonA y PhonB tienen la misma categoría, entonces Score aumenta en KMode.
\newpage
En una etapa 516, una función F_CompPen_Consse reclama para controlar si se cumple la siguiente condición:
-PhonA es fricativo-postalveolar y PhonB (o TmpPhonB) es fricativo-postalveolar-velar.
Y si se cumple la condición, entonces Score se reduce en KPlacel.
En una etapa 520, una función F_ValPlace_Cons se reclama para incrementar basándose en lo que se registra en la tabla 2.
En la tabla en cuestión, las categorías para PhonA están en el eje vertical y las de PhonB en el eje horizontal. Cada celda incluye un valor de bonificación para añadirlo a Score.
Al considerar, como por ejemplo, que PhonA tiene la categoría labiodental y PhonB la categoría dental solo, entonces, al examinar la línea de labiodental y cruzar la columna para dental, se encuentra que el valor Kplace2 se tiene que añadir a Score.
En una etapa 524, se realiza una comprobación para saber si PhonA es aproximante-semivocal y PhonB (o TmpPhonB) es aproximante. Si la comprobación da un resultado positivo, el sistema pasa a la etapa 528, donde se realiza una prueba sobre TmpKP.
Dicha prueba se realiza para asegurar que, en el caso de que los dos fonemas que se estén comparando sean aproximantes y con categorías de lugar idénticas, su Score es mayor que en el caso de una comparación consonante-vocal.
Si dicha variable es mayor o igual a KPlace1, entonces en una etapa 532 TmpKP se aumenta en KMode. En caso negativo, TmpKP se ajusta a cero en una etapa 536.
En una etapa 540, la cantidad TmpKP se añade a Score.
En una etapa 544, s realiza una comprobación para saber si Score es mayor que KMode.
Si así ocurre, en una etapa 548 las categorías (h) se comparan con la excepción de la categoría semiconsonante. Por cada identidad encontrada, Score aumenta en 1.
Una etapa 552 marca el final de la comparación, tras la cuál el sistema retrocede a la etapa 144 de la figura 1.
El diagrama de flujo de la figura 7 hace referencia a la comparación entre fonemas cuando PhonA es una consonante africada (etapa 136 de la figura 2).
En una etapa 600, comienza la comparación y en una etapa 604 se realiza una comprobación para saber si PhonB es africado y Loop igual a 0.
Si así ocurre, el sistema pasa a la etapa 608, que causa a su vez que el sistema retroceda a la etapa 132.
En una etapa 612, se realiza una comprobación para saber si PhonB es africado y Loop igual a 1.
Si así ocurre, se alcanza directamente una etapa 600.
En una etapa 616, se realiza una comprobación para saber si se puede considerar PhonB está compuesto por una africada.
Esto no puede ocurrir si Loop es igual a 1 y PhonB tiene las categorías fricativo-postalveolar-velar.
Si así ocurre, el sistema pasa a la etapa 660.
En una etapa 620, se realiza una comprobación del valor de Loop: si es igual 0, el sistema pasa a la etapa 642.
En esa etapa, PhonA se sustituye temporalmente en la comparación con PhonB y TmpPhonA; tiene las mismas características que PhonA, excepto por el hecho de que en lugar de ser africado es oclusivo.
En una etapa 628, se realiza una comprobación para saber si TmpPhonA tiene las categorías labiodentales; si así ocurre en una etapa 636, las categorías dentales se eliminan del vector de categorías.
En una etapa 632, se realiza una comprobación para saber si TmpPhonA tiene la categoría postalveolar; Si así ocurre, dicha categoría se reemplaza por la categoría alveolar en una etapa 644.
En una etapa 640, se realiza una comprobación para saber si TmpPhonA tiene las categorías alveolar-palatal; si así ocurre, se elimina la categoría palatal.
En una etapa 652 PhonA se reemplaza temporalmente (hasta alcanzar la etapa 144) en comparación con PhonB por TmpPhonA; tiene las mismas características que PhonA, excepto por el hecho de que es fricativo en lugar de ser africado.
La etapa 656 marca la evolución hacia la comparación de la etapa 132 al comparar TmpPhonA con PhonB.
Una etapa 660 marca el retroceso a la etapa 144.
El diagrama de flujo de la figura 8 describe detalladamente la etapa 140 del diagrama de flujo de la figura 2.
Una etapa 700 se alcanza se alcanza si PhonA es una consonante y PhonB es una vocal o si PhonA es vocal y PhonB consonante. El fonema TmpPhonA se establece como el fonema cero.
En una etapa 705, se realiza una comprobación para saber si PhonA es vocal y PhonB es consonante. Si así ocurre, la próxima etapa es la etapa 780.
En una etapa 710, se realiza una comprobación para saber si PhonA es aproximante-semiconsonante.
Si no es así, el sistema pasa directamente a la etapa 780.
En una etapa 720, se realiza una comprobación para saber si PhonA es palatal. Si así ocurre, en una etapa 730 TmpPhonA se transforma en una vocal cerrada anterior no acentuada y la comparación de una etapa 120 se realiza entre TmpPhonA y PhonB.
En una etapa 740, se realiza una comprobación para saber si PhonA es bilabial-velar. Si así ocurre, en una etapa 750 TmpPhonA se transforma en un vocal redondeada-posterior-cerrada-no acentuada y la comparación de la etapa 120 (figura 2) se realiza entre TmpPhonA y PhonB.
En una etapa 760, se realiza una comprobación para saber si PhonA es bilabial-palatal. Si así ocurre, en una etapa 770 TmpPhonA se transforma en un vocal redondeada-cerrada-no acentuada y la comparación de la etapa 120 se lleva a cabo entre TmpPhonA y PhonB.
Una etapa 780 marca el retroceso del sistema a la etapa 144.
A continuación, se muestran las tablas 1 y 2, mencionadas en diversas ocasiones anteriormente.
Por supuesto, sin prejuicios contra los principios subyacentes de la invención, las discrepancias y las realizaciones pueden variar, significativamente, con respecto a lo que se ha descrito, solo por medio de ejemplos, sin aparatarse del ámbito de la invención como se define en las reivindicaciones adjuntas.
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
(Tabla pasa a página siguiente)
TABLA 1 Distancias de los rasgos vocálicos (e)
1
2
Referencias citadas en la descripción
Esta lista de referencias citadas por el solicitante está prevista únicamente para ayudar al lector y no forma parte del documento de patente europea. Aunque se ha puesto el máximo cuidado en su realización, no se pueden excluir errores u omisiones y la OEP declina cualquier responsabilidad en este respecto.
Documentos que no son patentes citados en la descripción
\bullet C. TRABER et al. From multilingual to polyglot speech synthesis. Proceedings of the Eurospeech, 1999, 835-838 [0008]
\bullet W.N. CAMPBELL. Foreign-language speech synthesis. Proceedings ESCA/COCSDA ETRW on Speech Synthesis, 1998 [0010]
\bullet Talking Foreign. Concatenative Speech Synthesis and Language Barrier. Proceedings of the Eurospeech Scandinavia, 2001, 337-340 [0010].

Claims (13)

1. Un procedimiento para la conversión texto a voz de un texto (T1,..., Tn) en una primera lengua incluyendo secciones en al menos una segunda lengua, caracterizado por el hecho de que incluye las etapas de:
-
convertir (30) dichas secciones de dicha segunda lengua en conjuntos de fonemas de dicha segunda lengua,
-
asignar (40; 40b) al menos parte de dichos fonemas de dicha segunda lengua a conjuntos de fonemas de dicha primera lengua,
-
incluyendo dichos conjuntos de fonemas de dicha primera lengua resultante de dicha asignación en el flujo de fonemas, y
-
generar (50) una señal de voz a partir de dicho flujo de fonemas resultante.
donde dicha etapa de asignación (40) incluye las operaciones de:
-
llevar a cabo pruebas de similitud entre cada dicho fonema de dicha segunda lengua estando asignada y un conjunto de fonemas de asignación candidatos de dicha primera lengua, estando dichas pruebas de similitud realizadas representando dichos fonemas de dicha segunda lengua y dichos fonemas de asignación candidatos de dicha primera lengua como vectores de categorías, donde un vector representativo de categorías fonéticas de cada dicha segunda lengua está sujeto a la comparación con un conjunto de vectores de categoría representativos de la bases fonética categoría a categoría,
-
asignar valores de puntuación respectivos a dichas comparaciones categoría a categoría, estando dichos valores de puntuación respectivos agregados para generar puntuaciones respectivas a los resultados de dichas pruebas, y
-
asignar (40b) cada dicho fonema de dicha segunda lengua a un conjunto de fonemas de asignación de dicha primera lengua seleccionada de dichos fonemas de asignación candidatos como una función de dichas puntuaciones.
2. El procedimiento de la reivindicación 1, caracterizado por el hecho de que incluye la etapa de asignar (40) dicho fonema de dicha segunda lengua a un conjunto de fonemas de asignación de dicha primera lengua seleccionada de:
-
un conjunto de fonemas de dicha primera lengua incluyendo tres, dos o un fonema de dicha primera lengua, o
-
un conjunto vacío, donde no se incluye ningún fonema en dicho flujo resultante para dicho fonema en dicha segunda lengua.
3. El procedimiento de la reivindicación 2, caracterizado por el hecho de que dicha etapa de asignación (40) incluye las operaciones de:
-
definir un valor umbral (th) para los resultados de dichas pruebas, y
-
asignar a dicho conjunto vacío de fonemas de dicha primera lengua cualquier fonema de dicha segunda lengua en el que cualquiera de dichas puntuaciones no consiga alcanzar dicho valor umbral.
4. El procedimiento de la reivindicación 1, caracterizado por el hecho de que incluye las etapas de asignar distintos pesos a dichos valores de puntuación al agregar dichos valores de puntuación respectivos para generar dichas puntuaciones.
5. El procedimiento de la reivindicación 1, caracterizado por el hecho de que incluye la operación de seleccionar dichas categorías fonéticas de entre el grupo que consiste en:
-
(a) dos categorías básicas vocal y consonante;
-
(b) la categoría diptongo;
-
(c) las características vocálicas (por ejemplo, vocal) acentuada/no acentuada, no silábica, larga, nasal, róti- {}\hskip0.4cm ca, redondeada
-
(d) las categorías vocálicas anterior, central, posterior;
\newpage
-
(e) las categorías vocálicas cerrada, cerrada-mediocerrada, mediocerrada, mediocerrada, media, medio- {}\hskip0.4cm abierta, abierta-medioabierta, abierta;
-
(f) las categorías del modo consonántico oclusivo, nasal, vibrante múltiple, vibrante simple, fricativo, fri- {}\hskip0.4cm cativa lateral, aproximante, lateral, africada;
-
(g) las categorías del lugar consonántico bilabial, labiodental, dental, alveolar, postalveolar, retrofleja, pa- {}\hskip0.4cm latal, velar, uvular, faríngea, glotal; y
-
(h) las otras categorías consonánticas sonora, larga, silábica, aspirada, oclusiva, sorda, semiconsonante.
6. El procedimiento de la reivindicación 1, caracterizado por el hecho de que incluye la etapa de pronunciar (50, 60) dicho flujo de fonemas resultante por medio de una voz hablante de dicha primera lengua.
7. Un sistema para la conversión texto a voz de un texto (T1,..., Tn) en una primera lengua incluyendo secciones en al menos una segunda lengua, caracterizado por el hecho de que incluye:
-
un transcriptor grafema/morfema (30) para convertir dichas secciones en dicha segunda lengua en fonemas de dicha segunda lengua,
-
un módulo de asignación (40, 40b) para asignar al menos parte de dichos fonemas de dicha segunda lengua a conjuntos de fonemas de dicha segunda lengua,
-
un módulo de síntesis de voz (50) adaptado para ser suministrado con un flujo de fonemas resultante incluyendo dichos conjuntos de fonemas de dicha primera lengua resultante de dicha asignación y el flujo de fonemas de dicha primera lengua representativa de dicho texto, y para generar una señal de voz de dicho flujo resultante de fonemas,
donde dicho módulo de asignación (40) está configurado para:
-
llevar a cabo pruebas de similitud entre cada dicho fonema de dicha segunda lengua estando asignada y un conjunto de fonemas de asignación candidatos de dicha primera lengua, estando dichas pruebas de similitud realizadas representando dichos fonemas de dicha segunda lengua y dichos fonemas de asignación candidatos de dicha primera lengua como vectores de categoría fonéticos, donde un vector representativo de cada dicho fonema de dicha segunda lengua está sujeto a comparaciones con un conjunto de vectores de categoría fonéticos representativos de las categorías fonéticas de dichos fonemas de asignación candidatos en dicha primera lengua, estando dicha comparación realizada sobre una base categoría a categoría,
-
asignar valores de puntuación respectivos a dichas comparaciones categoría a categoría, estando dichos valores de puntuación agregados para generar puntuaciones respectivas a los resultados de dichas pruebas, y
-
asignar (40b) cada dicho fonema de dicha segunda lengua a un grupo de fonemas de asignación de dicha primera lengua seleccionada de dichos fonemas de asignación candidatos como función de dichas puntuaciones.
8. El sistema de la reivindicación 7, caracterizado por el hecho de que dicho modulo de asignación (40) está configurado para asignar (40b) dicho fonema de dicha segunda lengua a un grupo de fonemas de asignación de dicha primera lengua seleccionada de entre:
-
un conjunto de fonemas de dicha primera lengua incluyendo tres, dos o un fonema de dicha primera lengua, o
-
un conjunto vacío, donde ningún fonema está incluido en dicho flujo resultante para dicho fonema en dicha segunda lengua.
9. El sistema de la reivindicación 8, caracterizado por el hecho de que dicho modulo de asignación (40) está configurado para:
-
definir un valor umbral (Th) para los resultados de dichas pruebas, y
-
asignar a dicho conjunto vacío de fonemas de dicha primera lengua cualquier fonema de dicha segunda lengua en el que cualquiera de dichas puntuaciones no alcanza dicho valor umbral.
10. El sistema de la reivindicación 7, caracterizado por el hecho de que dicho modulo de asignación (40) está configurado para asignar ponderaciones diferenciadas a dichos valores de puntuación al agregar dichos valores de puntuación respectivos para generar dichas puntuaciones.
11. El sistema de la reivindicación 7, caracterizado por el hecho de que dicho modulo de asignación (40) está configurado para operar basándose en categorías fonéticas fuera del grupo que consiste en:
-
las dos categorías básicas vocal y consonante;
-
la categoría diptongo;
-
las características vocálicas (por ejemplo, vocal) acentuada/no acentuada, no silábica, larga, nasal, rótica, redondeada;
-
las categorías vocálicas anterior, central, posterior;
-
las categorías vocálicas cerrada, cerrada-mediocerrada, mediocerrada, mediocerrada, media, medioabierta, abierta-medioabierta, abierta;
-
las categorías del modo consonántico oclusiva, nasal, vibrante múltiple, vibrante simple, fricativa, fricativa lateral, aproximante, lateral, africada;
-
las categorías del lugar consonántico bilabial, labiodental, dental, alveolar, postalveolar, retrofleja, palatal, velar, uvular, faríngea, glotal; y
-
las otras categorías consonánticas sonora, larga, silábica, aspirada, oclusiva, sorda, semiconsonante.
12. El sistema de la reivindicación 7, caracterizado por el hecho de que dicho módulo de síntesis de voz (50) está configurado para pronunciar (50, 60) dicho flujo resultante de fonemas por medio de una voz hablante de dicha primera lengua.
13. Un programa informático que se puede cargar en la memoria de al menos un ordenador y que incluye porciones de software que realizan las etapas del procedimiento de cualquiera de las reivindicaciones 1 a 6.
ES03799483T 2003-12-16 2003-12-16 Procedimiento y sistema texto a voz y el programa informatico asociado. Expired - Lifetime ES2312851T3 (es)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2003/014314 WO2005059895A1 (en) 2003-12-16 2003-12-16 Text-to-speech method and system, computer program product therefor

Publications (1)

Publication Number Publication Date
ES2312851T3 true ES2312851T3 (es) 2009-03-01

Family

ID=34684493

Family Applications (1)

Application Number Title Priority Date Filing Date
ES03799483T Expired - Lifetime ES2312851T3 (es) 2003-12-16 2003-12-16 Procedimiento y sistema texto a voz y el programa informatico asociado.

Country Status (9)

Country Link
US (2) US8121841B2 (es)
EP (1) EP1721311B1 (es)
CN (1) CN1879147B (es)
AT (1) ATE404967T1 (es)
AU (1) AU2003299312A1 (es)
CA (1) CA2545873C (es)
DE (1) DE60322985D1 (es)
ES (1) ES2312851T3 (es)
WO (1) WO2005059895A1 (es)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11848022B2 (en) 2006-07-08 2023-12-19 Staton Techiya Llc Personal audio assistant device and method

Families Citing this family (206)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001013255A2 (en) 1999-08-13 2001-02-22 Pixo, Inc. Displaying and traversing links in character array
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
ITFI20010199A1 (it) 2001-10-22 2003-04-22 Riccardo Vieri Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico
WO2005059895A1 (en) 2003-12-16 2005-06-30 Loquendo S.P.A. Text-to-speech method and system, computer program product therefor
US7415411B2 (en) * 2004-03-04 2008-08-19 Telefonaktiebolaget L M Ericsson (Publ) Method and apparatus for generating acoustic models for speaker independent speech recognition of foreign words uttered by non-native speakers
US8036895B2 (en) * 2004-04-02 2011-10-11 K-Nfb Reading Technology, Inc. Cooperative processing for portable reading machine
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7633076B2 (en) 2005-09-30 2009-12-15 Apple Inc. Automated response to and sensing of user activity in portable devices
DE102006039126A1 (de) * 2006-08-21 2008-03-06 Robert Bosch Gmbh Verfahren zur Spracherkennung und Sprachwiedergabe
US8510112B1 (en) 2006-08-31 2013-08-13 At&T Intellectual Property Ii, L.P. Method and system for enhancing a speech database
US7912718B1 (en) * 2006-08-31 2011-03-22 At&T Intellectual Property Ii, L.P. Method and system for enhancing a speech database
US8510113B1 (en) 2006-08-31 2013-08-13 At&T Intellectual Property Ii, L.P. Method and system for enhancing a speech database
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8290775B2 (en) * 2007-06-29 2012-10-16 Microsoft Corporation Pronunciation correction of text-to-speech systems between different spoken languages
JP4455633B2 (ja) * 2007-09-10 2010-04-21 株式会社東芝 基本周波数パターン生成装置、基本周波数パターン生成方法及びプログラム
US9053089B2 (en) 2007-10-02 2015-06-09 Apple Inc. Part-of-speech tagging using latent analogy
US8165886B1 (en) 2007-10-04 2012-04-24 Great Northern Research LLC Speech interface system and method for control and interaction with applications on a computing system
US8595642B1 (en) 2007-10-04 2013-11-26 Great Northern Research, LLC Multiple shell multi faceted graphical user interface
US8620662B2 (en) * 2007-11-20 2013-12-31 Apple Inc. Context-aware unit selection
KR101300839B1 (ko) * 2007-12-18 2013-09-10 삼성전자주식회사 음성 검색어 확장 방법 및 시스템
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8065143B2 (en) 2008-02-22 2011-11-22 Apple Inc. Providing text input using speech data and non-speech data
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8464150B2 (en) 2008-06-07 2013-06-11 Apple Inc. Automatic language identification for dynamic text processing
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8768702B2 (en) 2008-09-05 2014-07-01 Apple Inc. Multi-tiered voice feedback in an electronic device
US8898568B2 (en) 2008-09-09 2014-11-25 Apple Inc. Audio user interface
US20100082328A1 (en) * 2008-09-29 2010-04-01 Apple Inc. Systems and methods for speech preprocessing in text to speech synthesis
US8583418B2 (en) * 2008-09-29 2013-11-12 Apple Inc. Systems and methods of detecting language and natural language strings for text to speech synthesis
US8712776B2 (en) 2008-09-29 2014-04-29 Apple Inc. Systems and methods for selective text to speech synthesis
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
KR101057191B1 (ko) * 2008-12-30 2011-08-16 주식회사 하이닉스반도체 반도체 소자의 미세 패턴 형성방법
US8862252B2 (en) * 2009-01-30 2014-10-14 Apple Inc. Audio user interface for displayless electronic device
US8380507B2 (en) 2009-03-09 2013-02-19 Apple Inc. Systems and methods for determining the language to use for speech generated by a text to speech engine
US10540976B2 (en) 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
US20120311585A1 (en) 2011-06-03 2012-12-06 Apple Inc. Organizing task items that represent tasks to perform
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US8682649B2 (en) 2009-11-12 2014-03-25 Apple Inc. Sentiment prediction from textual data
US20110110534A1 (en) * 2009-11-12 2011-05-12 Apple Inc. Adjustable voice output based on device status
US8600743B2 (en) 2010-01-06 2013-12-03 Apple Inc. Noise profile determination for voice-related feature
US8381107B2 (en) 2010-01-13 2013-02-19 Apple Inc. Adaptive audio feedback system and method
US8311838B2 (en) 2010-01-13 2012-11-13 Apple Inc. Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8977584B2 (en) 2010-01-25 2015-03-10 Newvaluexchange Global Ai Llp Apparatuses, methods and systems for a digital conversation management platform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
JP2011197511A (ja) * 2010-03-23 2011-10-06 Seiko Epson Corp 音声出力装置、音声出力装置の制御方法、印刷装置および装着ボード
US9798653B1 (en) * 2010-05-05 2017-10-24 Nuance Communications, Inc. Methods, apparatus and data structure for cross-language speech adaptation
US8639516B2 (en) 2010-06-04 2014-01-28 Apple Inc. User-specific noise suppression for voice quality improvements
US8713021B2 (en) 2010-07-07 2014-04-29 Apple Inc. Unsupervised document clustering using latent semantic density analysis
US8719006B2 (en) 2010-08-27 2014-05-06 Apple Inc. Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis
US8719014B2 (en) 2010-09-27 2014-05-06 Apple Inc. Electronic device with text error correction based on voice recognition data
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US10515147B2 (en) 2010-12-22 2019-12-24 Apple Inc. Using statistical language models for contextual lookup
TWI413105B (zh) * 2010-12-30 2013-10-21 Ind Tech Res Inst 多語言之文字轉語音合成系統與方法
US8781836B2 (en) 2011-02-22 2014-07-15 Apple Inc. Hearing assistance system for providing consistent human speech
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US20120310642A1 (en) 2011-06-03 2012-12-06 Apple Inc. Automatically creating a mapping between text data and audio data
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8812294B2 (en) 2011-06-21 2014-08-19 Apple Inc. Translating phrases from one language into another using an order-based set of declarative rules
US8805869B2 (en) * 2011-06-28 2014-08-12 International Business Machines Corporation Systems and methods for cross-lingual audio search
US8706472B2 (en) 2011-08-11 2014-04-22 Apple Inc. Method for disambiguating multiple readings in language conversion
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8762156B2 (en) 2011-09-28 2014-06-24 Apple Inc. Speech recognition repair using contextual information
EP2595143B1 (en) 2011-11-17 2019-04-24 Svox AG Text to speech synthesis for texts with foreign language inclusions
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US8775442B2 (en) 2012-05-15 2014-07-08 Apple Inc. Semantic search using a single-source semantic model
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
WO2013185109A2 (en) 2012-06-08 2013-12-12 Apple Inc. Systems and methods for recognizing textual identifiers within a plurality of words
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US8935167B2 (en) 2012-09-25 2015-01-13 Apple Inc. Exemplar-based latent perceptual modeling for automatic speech recognition
PL401371A1 (pl) * 2012-10-26 2014-04-28 Ivona Software Spółka Z Ograniczoną Odpowiedzialnością Opracowanie głosu dla zautomatyzowanej zamiany tekstu na mowę
US9311913B2 (en) * 2013-02-05 2016-04-12 Nuance Communications, Inc. Accuracy of text-to-speech synthesis
EP2954514B1 (en) 2013-02-07 2021-03-31 Apple Inc. Voice trigger for a digital assistant
US10572476B2 (en) 2013-03-14 2020-02-25 Apple Inc. Refining a search based on schedule items
US10642574B2 (en) 2013-03-14 2020-05-05 Apple Inc. Device, method, and graphical user interface for outputting captions
US9977779B2 (en) 2013-03-14 2018-05-22 Apple Inc. Automatic supplementation of word correction dictionaries
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US9733821B2 (en) 2013-03-14 2017-08-15 Apple Inc. Voice control to diagnose inadvertent activation of accessibility features
KR101759009B1 (ko) 2013-03-15 2017-07-17 애플 인크. 적어도 부분적인 보이스 커맨드 시스템을 트레이닝시키는 것
WO2014144395A2 (en) 2013-03-15 2014-09-18 Apple Inc. User training by intelligent digital assistant
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
CN105144133B (zh) 2013-03-15 2020-11-20 苹果公司 对中断进行上下文相关处理
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
HK1220268A1 (zh) 2013-06-09 2017-04-28 苹果公司 用於實現跨數字助理的兩個或更多個實例的會話持續性的設備、方法、和圖形用戶界面
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
JP2016521948A (ja) 2013-06-13 2016-07-25 アップル インコーポレイテッド 音声コマンドによって開始される緊急電話のためのシステム及び方法
JP2015014665A (ja) * 2013-07-04 2015-01-22 セイコーエプソン株式会社 音声認識装置及び方法、並びに、半導体集積回路装置
KR101749009B1 (ko) 2013-08-06 2017-06-19 애플 인크. 원격 디바이스로부터의 활동에 기초한 스마트 응답의 자동 활성화
US9245191B2 (en) * 2013-09-05 2016-01-26 Ebay, Inc. System and method for scene text recognition
US8768704B1 (en) * 2013-09-30 2014-07-01 Google Inc. Methods and systems for automated generation of nativized multi-lingual lexicons
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
CA2958684A1 (en) * 2014-08-21 2016-02-25 Jobu Productions Lexical dialect analysis system
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
CN105989833B (zh) * 2015-02-28 2019-11-15 讯飞智元信息科技有限公司 多语种混语文本字音转换方法及系统
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
CN106547511B (zh) 2015-09-16 2019-12-10 广州市动景计算机科技有限公司 一种语音播读网页信息的方法、浏览器客户端及服务器
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
KR20170044849A (ko) * 2015-10-16 2017-04-26 삼성전자주식회사 전자 장치 및 다국어/다화자의 공통 음향 데이터 셋을 활용하는 tts 변환 방법
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US9947311B2 (en) 2015-12-21 2018-04-17 Verisign, Inc. Systems and methods for automatic phonetization of domain names
US10102203B2 (en) * 2015-12-21 2018-10-16 Verisign, Inc. Method for writing a foreign language in a pseudo language phonetically resembling native language of the speaker
US9910836B2 (en) 2015-12-21 2018-03-06 Verisign, Inc. Construction of phonetic representation of a string of characters
US10102189B2 (en) 2015-12-21 2018-10-16 Verisign, Inc. Construction of a phonetic representation of a generated string of characters
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10586527B2 (en) * 2016-10-25 2020-03-10 Third Pillar, Llc Text-to-speech process capable of interspersing recorded words and phrases
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US10872598B2 (en) 2017-02-24 2020-12-22 Baidu Usa Llc Systems and methods for real-time neural text-to-speech
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10896669B2 (en) 2017-05-19 2021-01-19 Baidu Usa Llc Systems and methods for multi-speaker neural text-to-speech
US11017761B2 (en) 2017-10-19 2021-05-25 Baidu Usa Llc Parallel neural text-to-speech
US10872596B2 (en) 2017-10-19 2020-12-22 Baidu Usa Llc Systems and methods for parallel wave generation in end-to-end text-to-speech
US10796686B2 (en) 2017-10-19 2020-10-06 Baidu Usa Llc Systems and methods for neural text-to-speech using convolutional sequence learning
EP3662467B1 (en) * 2018-10-11 2021-07-07 Google LLC Speech generation using crosslingual phoneme mapping
CN110211562B (zh) * 2019-06-05 2022-03-29 达闼机器人有限公司 一种语音合成的方法、电子设备及可读存储介质
EP4061219B1 (en) 2019-11-21 2026-01-28 Cochlear Limited Scoring speech audiometry
CN111179904B (zh) * 2019-12-31 2022-12-09 出门问问创新科技有限公司 混合文语转换方法及装置、终端和计算机可读存储介质
CN111292720B (zh) * 2020-02-07 2024-01-23 北京字节跳动网络技术有限公司 语音合成方法、装置、计算机可读介质及电子设备
CN112927676A (zh) * 2021-02-07 2021-06-08 北京有竹居网络技术有限公司 一种语音信息的获取方法、装置、设备和存储介质
US11699430B2 (en) * 2021-04-30 2023-07-11 International Business Machines Corporation Using speech to text data in training text to speech models

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100240637B1 (ko) * 1997-05-08 2000-01-15 정선종 다중매체와의 연동을 위한 텍스트/음성변환 구현방법 및 그 장치
KR100238189B1 (ko) * 1997-10-16 2000-01-15 윤종용 다중 언어 tts장치 및 다중 언어 tts 처리 방법
US6510410B1 (en) * 2000-07-28 2003-01-21 International Business Machines Corporation Method and apparatus for recognizing tone languages using pitch information
CN1156819C (zh) * 2001-04-06 2004-07-07 国际商业机器公司 由文本生成个性化语音的方法
US7043431B2 (en) * 2001-08-31 2006-05-09 Nokia Corporation Multilingual speech recognition system using text derived recognition models
US20050144003A1 (en) * 2003-12-08 2005-06-30 Nokia Corporation Multi-lingual speech synthesis
WO2005059895A1 (en) 2003-12-16 2005-06-30 Loquendo S.P.A. Text-to-speech method and system, computer program product therefor

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11848022B2 (en) 2006-07-08 2023-12-19 Staton Techiya Llc Personal audio assistant device and method

Also Published As

Publication number Publication date
DE60322985D1 (de) 2008-09-25
US20070118377A1 (en) 2007-05-24
ATE404967T1 (de) 2008-08-15
US20120109630A1 (en) 2012-05-03
WO2005059895A1 (en) 2005-06-30
AU2003299312A1 (en) 2005-07-05
EP1721311B1 (en) 2008-08-13
CN1879147A (zh) 2006-12-13
EP1721311A1 (en) 2006-11-15
CA2545873A1 (en) 2005-06-30
CA2545873C (en) 2012-07-24
CN1879147B (zh) 2010-05-26
US8321224B2 (en) 2012-11-27
US8121841B2 (en) 2012-02-21

Similar Documents

Publication Publication Date Title
ES2312851T3 (es) Procedimiento y sistema texto a voz y el programa informatico asociado.
JP7142333B2 (ja) 多言語テキスト音声合成方法
KR100403293B1 (ko) 음성합성방법, 음성합성장치 및 음성합성프로그램을기록한 컴퓨터판독 가능한 매체
CN102543069B (zh) 多语言的文字转语音合成系统与方法
US7107216B2 (en) Grapheme-phoneme conversion of a word which is not contained as a whole in a pronunciation lexicon
ES2261355T3 (es) Correspondencia de plantillas prosodicas para sistemas de conversion de texto en habla.
Olaszy et al. Profivox—a Hungarian text-to-speech system for telecommunications applications
US20090150157A1 (en) Speech processing apparatus and program
US8155963B2 (en) Autonomous system and method for creating readable scripts for concatenative text-to-speech synthesis (TTS) corpora
Liang et al. An hmm-based bilingual (mandarin-english) tts
JPH10510065A (ja) 多言語テキスト音声合成のための二連音を生成及び利用する方法及びデバイス
Dijkstra et al. Frisian TTS, an example of bootstrapping TTS for minority languages
Williams Text-to-speech synthesis for Welsh and Welsh English.
Langarani et al. Data-driven foot-based intonation generator for text-to-speech synthesis.
GB2480649A (en) Non-native language spelling correction
IMRAN ADMAS UNIVERSITY SCHOOL OF POST GRADUATE STUDIES DEPARTMENT OF COMPUTER SCIENCE
Rustamov et al. On an approach to computer synthesis of Azerbaijan speech
Ahmad et al. Towards designing a high intelligibility rule based standard malay text-to-speech synthesis system
Al-Saiyd et al. Unit selection model in Arabic speech synthesis
Louw A new definition of Xhosa grapheme-to-phoneme rules for automatic transcription
Karn Aspects of phonetics and phonology in a text-to-speech system for Spanish
King Final report for Verbmobil Teilprojekt 4.4
JP5012444B2 (ja) 韻律生成装置、韻律生成方法、および、韻律生成プログラム
Menting Towards a keyboard-to-speech system
Tian et al. Modular design for Mandarin text-to-speech synthesis