ES2312851T3 - Procedimiento y sistema texto a voz y el programa informatico asociado. - Google Patents
Procedimiento y sistema texto a voz y el programa informatico asociado. Download PDFInfo
- Publication number
- ES2312851T3 ES2312851T3 ES03799483T ES03799483T ES2312851T3 ES 2312851 T3 ES2312851 T3 ES 2312851T3 ES 03799483 T ES03799483 T ES 03799483T ES 03799483 T ES03799483 T ES 03799483T ES 2312851 T3 ES2312851 T3 ES 2312851T3
- Authority
- ES
- Spain
- Prior art keywords
- language
- phonemes
- phoneme
- categories
- category
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims description 24
- PWPJGUXAGUPAHP-UHFFFAOYSA-N lufenuron Chemical compound C1=C(Cl)C(OC(F)(F)C(C(F)(F)F)F)=CC(Cl)=C1NC(=O)NC(=O)C1=C(F)C=CC=C1F PWPJGUXAGUPAHP-UHFFFAOYSA-N 0.000 title 1
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 18
- 230000006870 function Effects 0.000 claims description 27
- 239000013598 vector Substances 0.000 claims description 20
- 230000015572 biosynthetic process Effects 0.000 claims description 17
- 238000012360 testing method Methods 0.000 claims description 12
- 230000001755 vocal effect Effects 0.000 claims description 10
- 206010011878 Deafness Diseases 0.000 claims description 8
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 3
- 230000015654 memory Effects 0.000 claims description 3
- 238000013507 mapping Methods 0.000 abstract 3
- 238000013459 approach Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 230000003111 delayed effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000004833 X-ray photoelectron spectroscopy Methods 0.000 description 2
- 230000004888 barrier function Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 235000019994 cava Nutrition 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000010348 incorporation Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000001020 rhythmical effect Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 239000011800 void material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Devices For Executing Special Programs (AREA)
Abstract
Un procedimiento para la conversión texto a voz deUn procedimiento para la conversión texto a voz de un texto (T1,..., Tn) en una primera lengua inclu un texto (T1,..., Tn) en una primera lengua incluyendo secciones en al menos una segunda lengua, cayendo secciones en al menos una segunda lengua, caracterizado por el hecho de que incluye las etapasracterizado por el hecho de que incluye las etapas de: - convertir (30) dichas secciones de dicha se de: - convertir (30) dichas secciones de dicha segunda lengua en conjuntos de fonemas de dicha segugunda lengua en conjuntos de fonemas de dicha segunda lengua, - asignar (40; 40b) al menos parte de nda lengua, - asignar (40; 40b) al menos parte de dichos fonemas de dicha segunda lengua a conjuntosdichos fonemas de dicha segunda lengua a conjuntos de fonemas de dicha primera lengua, - incluyendo de fonemas de dicha primera lengua, - incluyendo dichos conjuntos de fonemas de dicha primera lengudichos conjuntos de fonemas de dicha primera lengua resultante de dicha asignación en el flujo de foa resultante de dicha asignación en el flujo de fonemas, y - generar (50) una señal de voz a partir nemas, y - generar (50) una señal de voz a partir de dicho flujo de fonemas resultante. donde dicha de dicho flujo de fonemas resultante. donde dicha etapa de asignación (40) incluye las operaciones detapa de asignación (40) incluye las operaciones de: - llevar a cabo pruebas de similitud entre cadae: - llevar a cabo pruebas de similitud entre cada dicho fonema de dicha segunda lengua estando asig dicho fonema de dicha segunda lengua estando asignada y un conjunto de fonemas de asignación candidnada y un conjunto de fonemas de asignación candidatos de dicha primera lengua, estando dichas pruebatos de dicha primera lengua, estando dichas pruebas de similitud realizadas representando dichos foas de similitud realizadas representando dichos fonemas de dicha segunda lengua y dichos fonemas de nemas de dicha segunda lengua y dichos fonemas de asignación candidatos de dicha primera lengua comoasignación candidatos de dicha primera lengua como vectores de categorías, donde un vector represent vectores de categorías, donde un vector representativo de categorías fonéticas de cada dicha segundativo de categorías fonéticas de cada dicha segunda lengua está sujeto a la comparación con un conjua lengua está sujeto a la comparación con un conjunto de vectores de categoría representativos de lanto de vectores de categoría representativos de la bases fonética categoría a categoría, - asignar v bases fonética categoría a categoría, - asignar valores de puntuación respectivos a dichas comparacalores de puntuación respectivos a dichas comparaciones categoría a categoría, estando dichos valoreiones categoría a categoría, estando dichos valores de puntuación respectivos agregados para generars de puntuación respectivos agregados para generar puntuaciones respectivas a los resultados de dich puntuaciones respectivas a los resultados de dichas pruebas, y - asignar (40b) cada dicho fonema deas pruebas, y - asignar (40b) cada dicho fonema de dicha segunda lengua a un conjunto de fonemas de dicha segunda lengua a un conjunto de fonemas de asignación de dicha primera lengua seleccionada deasignación de dicha primera lengua seleccionada de dichos fonemas de asignación candidatos como una dichos fonemas de asignación candidatos como una función de dichas puntuaciones. función de dichas puntuaciones.
Description
Procedimiento y sistema texto a voz y el
programa informático asociado.
La presente invención se refiere a técnicas de
texto a voz, concretamente las técnicas que permiten que un texto
escrito se transforme en una señal de voz inteligible.
Los sistemas de texto a voz se conocen por estar
basados en la denominada "síntesis concatenativa por selección de
unidades". Esto requiere una base de datos que incluya frases
pregrabas pronunciadas por hablantes nativos. La base de datos
vocálica es de una sola lengua, ya que todas las frases se escriben
y se pronuncian en la lengua del hablante.
Los sistemas de texto a voz de este tipo pueden,
por tanto, "leer" correctamente solo los textos escritos en la
lengua del hablante, mientras que cualquier palabra extranjera
incluida en el texto solo se podrá pronunciar de manera inteligible
si se incluye (junto con su fonetización correcta) en el léxico
proporcionado como refuerzo del sistema texto a voz.
Consecuentemente, los textos plurilingües solo pueden leerse
correctamente en dichos sistemas cambiando la voz del hablante en el
caso de un cambio en la lengua. Esto provoca un efecto que no suele
ser agradable, y resulta cada vez más evidente cuando los cambios en
la lengua ocurren frecuentemente y son de corta duración.
Adicionalmente, un hablante corriente que tenga
que pronunciar palabras extranjeras de un texto en su propia
lengua, normalmente tendrá tendencia a pronunciar esas palabras de
un modo diferente, y también significativamente, a la manera
correcta de pronunciar las mismas palabras cuando se incluyen en un
texto completo en la lengua extranjera correspondiente.
A modo de ejemplo, un hablante británico o
americano que tenga que pronunciar, por ejemplo, un nombre o
apellido italiano incluido en un texto en inglés adoptará, en
condiciones generales, una pronunciación bastante diferente a la
pronunciación tomada por un hablante nativo de italiano a la hora de
pronunciar el mismo nombre y apellido. Correspondientemente, una
persona que hable inglés y que escuche el mismo texto hablado,
generalmente pensará que el nombre y apellido italianos son más
fáciles de entender (aproximadamente como mínimo) si han sido
pronunciados como esperaba de forma "tergiversada" por un
hablante inglés que si los hubiera pronunciado con la correcta
pronunciación italiana.
De forma similar, la pronunciación de, por
ejemplo, el nombre de una ciudad en Reino Unido o Estados Unidos
incluida en un texto italiano leído por un hablante italiano
adoptando la pronunciación de inglés británico o americano correcta
normalmente se considerará como una sofisticación excesiva y, como
tal, se rechazará en el uso común.
El problema de leer un texto plurilingüe ya se
ha abordado en el pasado adoptando dos enfoques diferentes.
Por una parte, se realizaron intentos de
producir bases de datos plurilingües recurriendo a hablantes
bilingües o plurilingües. Un ejemplo de dicho enfoque es el artículo
de C. Traber et al.: "From multilingual to polyglot speech
synthesis" - Proceedings of the Eurospeech, páginas
835-838, 1999.
Este enfoque se basa en supuestos
(esencialmente, la disponibilidad de un hablante plurilingüe) que
son difíciles de encontrar y reproducir. Además, dicho enfoque no
suele solucionar el problema asociado generalmente a las palabras
extranjeras incluidas en un texto que se espera que se pronuncien de
manera diferente (posiblemente notable) a la correcta pronunciación
en la lengua correspondiente.
Otro enfoque es adoptar un transcriptor de
lengua extranjero y los fonemas producidos en su producción que,
para ser pronunciados, se asignan a los fonemas de las lenguas de la
voz hablante. Un ejemplo de este último enfoque son los trabajos de
W.N. Campbell "Foreign-language speech
synthesis" Proceedings ESCA/COCSDA ETRW on Speech Synthesis,
Jenolan Caves, Australia, 1998 and "Talking Foreign. Concatenative
Speech Synthesis and Language Barrier", Proceedings of the
Eurospeech Scandinavia, pages 337 - 340, 2001.
Los trabajos de Campbell tienen como objetivo
esencial sintetizar un texto bilingüe por ejemplo, en inglés y
japonés, basándose en la voz generada partiendo de una base de datos
japonesa monolingüe. Si la voz hablante es japonesa y el texto de
entrada inglés, se activa un transcriptor inglés para producir
fonemas ingleses. La similitud se evalúa según las categorías
fonético-articulatorias. Un módulo de asignación
fonético asigna cada fonema inglés a un fonema japonés
correspondiente, similar. Esta similitud se evalúa basándose en las
categorías fonético-articulatorias. La asignación se
lleva a cabo mediante una búsqueda en una tabla de consulta que
proporciona una correspondencia entre los fonemas japoneses y los
ingleses.
Como etapa subsiguiente, las diversas unidades
acústicas destinadas a componer la lectura realizada por un voz
japonesa se seleccionan de la base de datos japonesa basándose en
sus similitudes acústicas con las señales generadas al sintetizar
el mismo texto con una voz inglesa.
La parte principal del procedimiento propuesto
por Campbell es una tabla de consulta que expresa la
correspondencia entre fonemas en las dos lenguas. Dicha tabla se
crea manualmente investigando las características de las dos
lenguas en cuestión.
En principio, dicho enfoque es aplicable a
cualquier otro par de lenguas, pero cada par de lenguas requiere un
análisis explícito de la correspondencia entre ellos. Dicho enfoque
es de algún modo incómodo, y de hecho prácticamente inviable en el
caso de un sistema de síntesis que incluya más de dos lenguas, ya
que el número de parejas de lenguas a tener en cuenta sería
demasiado alto.
Adicionalmente, se suele utilizar más de un
hablante para cada lengua, teniendo sistemas fonológicos al menos
algo diferentes. Para que cualquier voz hablante esté en condiciones
de hablar todas las lenguas disponibles, sería necesaria una tabla
para cada voz-par de lenguas.
En el caso de un sistema de síntesis que incluya
N lenguas y M voces hablantes (evidentemente, M es igual o mayor
que N), con tablas de consulta para la primera etapa de asignación
fonética, si los fonemas de una voz hablante se asignan a los de
una sola voz para cada lengua extranjera, entonces se tendrán que
crear N-1 tablas diferentes para cada voz hablante,
resultando así en un total de N*(M-1) tablas de
consulta.
En el caso de un sistema de síntesis que
funcione con quince lenguas y dos voces hablantes para cada lengua
(que se corresponde con la disposición actual adoptada en el sistema
texto a voz de Loquendo TTS desarrollado por el cesionario de la
presente invención), se necesitarían 435 tablas de consulta. Este
dato es bastante importante, especialmente si se tiene en cuenta la
posible necesidad de generar dichas tablas de consulta
manualmente.
Ampliar dicho sistema para incluir solo una voz
hablante que hable una lengua nueva requeriría añadir M+N=45 nuevas
tablas. En ese sentido, se debe tener en cuenta que frecuentemente
se añaden nuevos fonemas a los sistemas de texto a voz para una o
más lenguas, siendo un caso frecuente que el nuevo fonema añadido
sea un alófono de un fonema que ya existe en el sistema. En ese
caso, existirá la necesidad de revisar y modificar todas las tablas
de consulta que pertenezcan a la(s) lengua (s) en las que se
ha(n) añadido el nuevo fonema.
En vista de lo explicado anteriormente, existe
la necesidad de mejorar los sistemas texto a voz para que
prescindan de los inconvenientes de la técnica anterior en cuanto a
las disposiciones descritas anteriormente. Más específicamente, el
objeto de la presente invención es proporcionar un sistema texto a
voz multilingüe que:
- pueda prescindir del requisito de confiar en
hablantes plurilingües, y
- pueda implementarse recurriendo a estructuras
simples, requiriendo memorias moderadas, y que al mismo tiempo
prescinda también de la necesidad de generar (posiblemente de forma
manual) un número relevante de tablas de consulta, especialmente
cuando el sistema se mejora con la adición de un fonema nuevo para
una o varias lenguas.
Según la presente invención, este objeto se
consigue mediante un procedimiento que tenga las características
expuestas en la reivindicación 1. La invención también hace
referencia al sistema texto a voz correspondiente, como se expone
en la reivindicación 7, y un producto de un programa informático que
se puede cargar en la memoria de al menos un ordenador y que
comprenda porciones de código de software para realizar las etapas
del procedimiento de la invención cuando el producto se ejecuta en
un ordenador, como se expone en la reivindicación 13. Como se
utiliza aquí, la referencia a dicho producto de programa informático
se intenta que sea equivalente a la referencia de soportes
legibles por ordenador que contengan instrucciones para controlar un
sistema informático para coordinar la realización del procedimiento
de la invención. La referencia "al menos un ordenador" está
evidentemente dirigida a resaltar la posibilidad de que el sistema
de la invención se implemente de forma distribuida.
Una realización preferida de la invención es,
por tanto, una disposición para la conversión texto a voz de un
texto en una primera lengua incluyendo secciones en como mínimo una
segundo lengua, incluyendo:
- -
- un grafema/morfema transcriptor para convertir dichas secciones de dicha segunda lengua en fonemas de dicha segunda lengua,
- -
- un módulo de asignación configurado para asignar como mínimo una parte de dichos fonemas de dicha segunda lengua a conjuntos de fonemas de dicha primera lengua.
- -
- un módulo de síntesis de voz adaptado para ser alimentado por un flujo de fonemas resultante que incluya dichos conjuntos de fonemas de dicha primera lengua resultantes de dicha asignación y del flujo de fonemas de dicha primera lengua representativos de dicho texto, y para generar una señal de voz a partir de dicho flujo de fonemas resultante; el módulo de asignación está configurado para:
- -
- llevar a cabo pruebas de similitud entre cada uno de dichos fonemas de dicha segunda lengua que están siendo asignados y un conjunto de fonemas de asignación candidatos de dicha primera lengua,
\global\parskip0.930000\baselineskip
- -
- asignar las respectivas puntuaciones a los resultados de dichas pruebas, y
- -
- asignar dicho fonema de dicha segunda lengua en un conjunto de fonemas de asignación de dicha primera lengua seleccionada fuera de dichos fonemas de asignación candidatos como una función de dichas puntuaciones.
Preferentemente, el módulo de asignación está
configurado para asignar dicho fonema de dicha segunda lengua a un
conjunto de fonemas de asignación de dicha primera lengua
seleccionado entre:
- -
- un conjunto de fonemas de dicha primera lengua incluyendo tres, dos o un fonema de dicha primera lengua, o
- -
- un conjunto vacío, mediante el que no se incluye ningún fonema en dicho flujo resultante para dicho fonema en dicha segunda lengua.
Generalmente, la asignación a dicho conjunto
vacío de fonemas de dicha primera lengua ocurre en los fonemas de
dicha segunda lengua en los que ninguna de dichas puntuaciones puede
alcanzar un valor umbral.
El flujo de fonemas resultante puede ser, por
tanto, pronunciado por una voz hablante de dicha primera
lengua.
Esencialmente, la disposición aquí descrita está
basada en una disposición de asignación fonética donde cada una de
las voces hablantes incluidas en el sistema es capaz de leer un
texto plurilingüe sin modificar la base de datos vocálica.
Específicamente, una realización preferida de la disposición
descrita busca, entre los fonemas presentes en la tabla para la
lengua de la voz hablante, el fonema que resulta más parecido al
fonema de la lengua extranjera recibido como entrada. El grado de
similitud entre los dos fonemas se puede expresar sobre la base de
rasgos fonético-articulatorios, como se define, por
ejemplo, según el AFI estándar. Una tabla de asignación fonética
cuantifica el grado de afinidad/similitud de las categorías
fonéticas y la importancia de cada una de ellas en la comparación
ente fonemas.
La disposición aquí descrita no incluye ninguna
comparación "acústica" entre los segmentos incluidos en la
base de datos de la lengua de la voz hablante y la señal sintetizada
mediante la voz hablante de la lengua extranjera. Consecuentemente,
toda la disposición es menos incómoda desde el punto de vista
computacional y prescinde de la necesidad de que el sistema tenga
una voz hablante disponible para la lengua extranjera: solo el
transcriptor grafema-morfema será suficiente.
Adicionalmente, la asignación fonética es
independiente de la lengua. La comparación entre fonemas se refiere
exclusivamente al vector de los rasgos fonéticos asociados a cada
fonema, siendo de hecho estos rasgos independientes de la lengua.
El módulo de asignación, por tanto, no es "consciente" de las
lenguas implicadas, lo que significa que no existen requisitos para
ninguna actividad específica que se tenga que realizar
(posiblemente de forma manual) para cada par de lenguas (o para cada
par voz-lengua) en el sistema. Además, la
incorporación de nuevas lenguas o nuevos fonemas al sistema no
precisa modificaciones en el módulo de asignación fonética.
Sin pérdidas en cuestiones de efectividad, la
disposición aquí descrita lleva a una simplificación apreciable en
comparación con el sistema de la técnica anterior, mientras que
también implica un mayor grado de generalización respecto a las
soluciones previas.
Los experimentos llevados a cabo muestran que el
objeto de utilizar una voz hablante monolingüe para hablar lenguas
extranjeros de manera inteligible se consigue por completo.
La invención se describirá ahora solo mediante
un ejemplo refiriéndose a las figuras anexas del dibujo, donde:
- la figura 1 es un diagrama de bloques de un
sistema texto a voz adaptado para incorporar las mejoras aquí
descritas, y
- las figuras 2 a 8 son diagramas de flujo que
ejemplifican un posible funcionamiento del sistema texto a voz de
la figura 1.
El diagrama de bloques de la figura 1 muestra la
arquitectura general de un sistema texto a voz de tipo
plurilingüe.
Esencialmente, el sistema de la figura 1 está
adaptado para recibir como su texto de llegada que califica
básicamente como texto plurilingüe.
En el contexto de la invención, la importancia
de la definición de plurilingüe es doble:
- en primer lugar, el texto de entrada es
plurilingüe porque se corresponde con un texto escrito en cualquiera
de una variedad de lenguas diferentes T1,..., Tn como por ejemplo,
quince lenguas diferentes, y
\global\parskip1.000000\baselineskip
- en segundo lugar, cada uno de los textos
T1,..., Tn es per se plurilingüe, ya que puede incluir
palabras o frases en una o más lenguas distintas a la lengua básica
del texto.
El texto T1,..., Tn se proporciona al sistema
(generalmente designado 10) en formato de texto electrónico.
El texto originalmente disponible en formas
diferentes (por ejemplo, como copias impresas de un texto impreso)
se puede pasar fácilmente a formato electrónico recurriendo a
técnicas como la lectura de escáner OCR. Estos métodos son muy
conocidos en la técnica, siendo por tanto innecesario proporcionar
una descripción detallada.
Un primer bloque en el sistema 10 está
representado por un módulo de reconocimiento del lenguaje 20
adaptado para reconocer tanto el lenguaje básico de un texto de
entrada en el sistema como la(s) lengua(s) de
cualquier palabra o frase extranjera incluida en el texto
básico.
De nuevo, los módulos adaptados para realizar
automáticamente dicha función de reconocimiento de la lengua son
muy conocidos en la técnica (por ejemplo, por los correctores
ortográficos de los sistemas de procesamiento de texto), siendo por
tanto innecesario proporcionar una descripción detallada.
A continuación, al describir una realización
ejemplar de la invención, se hará referencia a una situación en la
que el texto de entrada básico es un texto italiano que incluye
palabras o frases cortas en inglés. La voz hablante también será
italiana.
A continuación del módulo de reconocimiento del
lenguaje 20 hay tres módulos 30, 40 y 50, uno detrás del otro.
Específicamente, el módulo 30 es un transcriptor
grafema/morfema adaptado para segmentar el texto recibido como una
entrada en grafemas (por ejemplo, letras o grupos de letras) y
convertirlo en un flujo de fonemas correspondiente. El módulo 30
puede ser un transcriptor grafema/fonema de un tipo conocido
incluido en el sistema texto a voz Loquendo TTS, ya mencionado
anteriormente.
Esencialmente, la salida del módulo 30 será un
flujo de fonemas incluyendo fonemas en el lenguaje básico del texto
de entrada (por ejemplo, italiano) que se hayan descompuesto en
"ráfagas" de fonemas en la(s) lengua(s) (por
ejemplo, inglés) consistiendo en las palabras o frases cortas de la
lengua extranjera incluidas en el texto básico.
La referencia 40 designa una tabla de asignación
cuya estructura y funcionamiento se detallará más adelante.
Básicamente, el módulo 40 convierte el flujo mixto de fonemas que
salen del módulo 30, comprendiendo tanto los fonemas del lenguaje
básico (italiano) del texto de entrada como los fonemas de la lengua
extranjera (inglés), en un flujo de fonemas que incluyen solo
fonemas de la primera lengua básica, concretamente italiano en el
ejemplo considerado.
Finalmente, el módulo 50 es un módulo de
síntesis de voz adaptado para generar a partir del flujo de fonemas
(italianos) procedentes del módulo 40 una señal de voz sintetizada
que se proporcionará a un altavoz 60 para que genere una señal de
voz acústica correspondiente para que sea percibida, escuchada y
entendida por los hombres.
Un módulo de síntesis de señal de voz como el
módulo 60 mostrado aquí es un componente básico de cualquier señal
texto a voz, siendo por tanto innecesario proporcionar aquí una
descripción detallada.
A continuación se describe el funcionamiento del
módulo 40.
Esencialmente, el módulo 40 está compuesto de
una primera y segunda porción designada 40a y 40b,
respectivamente.
La primera porción 40a está configurada
esencialmente para pasar al módulo 50 aquellos fonemas que ya son
fonemas de la lengua básica (italiano, en el ejemplo
considerado).
El segundo punto 40b incluye una tabla de
fonemas de la voz hablante (italiano) y recibe como una entrada el
flujo de fonemas en lengua extranjera (inglés) que se tienen que
asignar a los fonemas de la lengua de la voz hablante (italiano)
para permitir que dicha voz los pronuncie.
Como se indica anteriormente, el módulo 20
indica al módulo 40 cuando, dentro del marco de un texto en una
lengua dada, aparece una palabra o frase en una lengua extranjera.
Esto ocurre gracias a un "cambio de señal" enviado por el
módulo 20 al módulo 40 por encima de la línea 24.
De nuevo se recuerda que la referencia al
italiano y al inglés como dos lenguas implicadas en el proceso de
conversión texto a voz tiene simplemente una naturaleza ejemplar. De
hecho, una ventaja básica de la disposición aquí descrita reside en
que la asignación fonética, como se realiza en la porción 40b del
módulo 40, es independiente del lenguaje. El módulo 40 no es
consciente de las lenguas implicadas, lo que significa que no
existen requisitos para que se lleve a cabo (posiblemente de forma
manual) cualquier actividad específica para cada par de lenguas (o
cada par voz-lengua) en el sistema.
Esencialmente, en el módulo 40 cada fonema de
lengua extranjera se compara con todos los fonemas presentes en la
tabla (que también puede incluir fonemas que, per se, no son
fonemas de la lengua básica).
Consecuentemente, un número variable de fonemas
de salida puede corresponder a cada fonema de entrada: por ejemplo,
tres fonemas, dos fonemas, un fonema o ningún fonema.
Por ejemplo, un diptongo extranjero se comparará
con los diptongos de la voz hablante así como con parejas de
vocales.
Se asocia una puntuación con cada comparación
realizada.
Los fonemas finalmente elegidos serán aquellos
que tengan la mayor puntuación y un valor mayor que el valor
umbral. Si ninguno de los fonemas en la voz hablante alcanza el
valor umbral, el fonema de la lengua extranjera se asignará a un
fonema cero y, por tanto, no se producirá ningún sonido para ese
fonema.
Cada fonema está definido de una manera
inequívoca mediante un vector de n categorías
fonético-articulatorias de longitudes variables.
Las categorías, definidas según el estándar AFI, son las
siguientes:
- -
- (a) las dos categorías básicas vocal y consonante;
- -
- (b) la categoría diptongo;
- -
- (c) las características vocálicas (por ejemplo, vocal) acentuada/no acentuada, no silábica, larga, nasal, ró- {}\hskip0.4cm tica, redondeada;
- -
- (d) las categorías vocálicas anterior, central, posterior;
- -
- (e) las categorías vocálicas cerrada, cerrada-mediocerrada, mediocerrada, mediocerrada, media, medioa- {}\hskip0.4cm bierta, abierta-medioabierta, abierta;
- -
- (f) las categorías del modo consonántico oclusiva, nasal, vibrante múltiple, vibrante simple, fricativa, fri- {}\hskip0.4cm cativa lateral, aproximante, lateral, africada;
- -
- (g) las categorías del lugar consonántico bilabial, labiodental, dental, alveolar, postalveolar, retrofleja, pa- {}\hskip0.4cm latal, velar, uvular, faríngea, glotal; y
- -
- (h) las otras categorías consonánticas sonora, larga, silábica, aspirada, oclusiva, sorda, semiconsonante.
Actualmente, la categoría semiconsonante no es
un rasgo AFI estándar. Esta categoría es una categoría redundante
utilizada para simplemente denotar una consonante
aproximante/alveolar/palatal o una consonante
aproximante-velar.
Las categorías (d) y (e) también describen el
segundo componente de un diptongo.
Cada vector contiene una categoría (a), una o
ninguna categoría (b) si el fonema es una vocal, una categoría (c)
como mínimo si el fonema es una vocal, una categoría (e) si el
fonema es una vocal, una categoría (f) si el fonema es una
consonante, como mínimo una categoría (g) si el fonema es una
consonante y como mínimo una categoría (h) si el fonema es una
consonante.
La comparación entre fonemas se realiza mediante
la comparación de los vectores correspondientes, repartiendo las
puntuaciones respectivas a dichas comparaciones vector por
vector.
La comparación entre vectores se realiza
comparando las categorías correspondientes, estando dichas
puntuaciones respectivas agregadas para generar dichas
puntuaciones.
Cada comparación categoría por categoría ha
asociado un peso diferenciado, de modo que diferentes comparaciones
categoría por categoría pueden tener pesos diferentes a la hora de
generar la puntuación correspondiente.
Por ejemplo, una puntuación máxima obtenida
comparando categorías (f) siempre será menor que la puntuación
obtenida al comparar categorías (g) (por ejemplo, el peso asociado a
la comparación de la categoría (f) es mayor que el peso asociado a
la comparación de la categoría (g)). Como consecuencia, la afinidad
entre vectores (puntuación) estará principalmente influenciada por
la similitud entre categorías (f), comprada con la similitud entre
categorías (g).
El proceso descrito a continuación utiliza un
conjunto de constantes que tiene preferiblemente el siguiente
valor;
- -
- MaxCount = 100
- -
- Kopen = 14
- -
- Sstep = 1-
- -
- Mstep = 2* Lstep
- -
- Lstep = 4* Mstep
- -
- Kmode = Kopen + (Lstep * 2)
- -
- Thr = Kmode
- -
- Kplace3 = 1
- -
- Kplace2 = (Kplace3 * 2) + 1
- -
- Kplace1 = ((Kplace2) * 2) + 1
- -
- DecrOPen = 5
El funcionamiento del sistema aquí ejemplificado
se describirá ahora haciendo referencia a los diagramas de flujo de
las figuras 2 a 8 asumiendo que un solo fonema se lleva a la entrada
del módulo 40. Si se proporciona una variedad de fonemas como
entrada al módulo 40, el proceso descrito a continuación se repetirá
para cada fonema de entrada.
A continuación, el fonema que tenga la categoría
consonántica de diptongo o africada se denominará fonema
divisible.
Al definir las categorías modales y de lugar de
un fonema, se intenta que sean unívocas, a menos que se indique lo
contrario.
Por ejemplo, si un fonema extranjero (por
ejemplo, PhonA) se califica como fricativo-uvular,
significa que solo tiene una categoría modal (fricativo) y una
categoría de lugar (uvular).
Al hacer referencia primero al diagrama de flujo
de la figura 2 en la etapa 100, el índice (Indx) que escanea una
tabla de la lengua de la voz hablante (designado a continuación TbB)
se pone a cero, concretamente colocado como el primer fonema de la
tabla.
El valor de la puntuación (Score) se pone al
valor inicial cero, como es el caso de las variables TmpScrMax,
FirstMaxScore, Loop y Continue. Los fonemas BestPhon, FirstBest y
FirstBestCmp se ponen en el fonema cero.
En una etapa 104 el vector de las categorías
para el fonema extranjero (PhonA) se compara con el vector del
fonema para la lengua de la voz hablante (PhonB).
Si los dos vectores son idénticos, los dos
fonemas serán idénticos y en la etapa 108 la puntuación se retrasa
hasta el valor MaxCount y las etapas subsiguientes es la etapa
144.
Si los vectores son diferentes, las categorías
básicas (a) se comparan en la etapa 112.
Existen tres alternativas: ambos fonemas son
consonantes (128), ambos son vocales (116) o diferentes (140).
En el paso 116 se realiza una comprobación para
saber si PhonA es un diptongo. Si así fuera, en una etapa 124 las
funciones descritas en el diagrama de flujo de la figura 4 se
activan, como de detalla a continuación.
Si no es un diptongo, en una etapa 120, la
función descrita en el diagrama de flujo de la figura 5 se activa
para comparar una vocal con otra vocal.
Se aprecia que las dos etapas 120 y 124 pueden
llevar a una modificación de la puntuación, como se detalla a
continuación.
Posteriormente, el proceso continúa hacia la
etapa 144.
En una etapa 128 (comparación entre
consonantes), se realiza una comprobación para saber si el PhonA es
africado. Si así fuera, en una etapa 136 la función descrita en el
diagrama de flujo de la figura 7 se activa. Si no, en una etapa
132, la función descrita en la figura 6 se activa para comparar las
dos consonantes.
En una etapa 140 las funciones descritas en el
diagrama de flujo de la figura 8 se activan, como se detalla a
continuación.
De modo similar a continuación se detallan más
ampliamente los criterios en los que se basa para poder modificar
la puntuación en las etapas 132 y 136.
Posteriormente, el sistema pasa a la etapa
144.
Los resultados de la comparación convergen
hacia la etapa 144, donde se lee el valor de la puntuación
(Score).
En una etapa 148, el valor de la puntuación se
compara con un valor denominado MaxCount. Si el valor de la
puntuación iguala el MaxCount, la búsqueda finaliza, lo que
significa que se ha encontrado un fonema correspondiente en la
lengua de la voz hablante para el PhonA (etapa 152).
Si el valor de la puntuación es inferior que el
MaxCount (comprobado en al etapa 148), el proceso avanza a la etapa
156, como se describe en el diagrama de flujo de la figura 3.
En una etapa 160, el valor Continue se compara
con el valor 1. Si el resultado es positivo (concretamente Continue
igual a 1), el sistema retrocede a la etapa 104 después de
establecer el valor Loop al valor 1 y reajustar Continue, Indx y
Score a cero. Si no, el sistema pasa a la etapa 164.
Desde aquí, si el PhonA es nasal o rótico y el
fonema o fonemas seleccionados no son de ninguno de estos modos, el
sistema pasa a la etapa 168, donde el fonema(s)
seleccionado(s) está complementado por una forma
consonántica TabB, cuyas características
fonético-articulatorias permiten simular el sonido
nasal o rótico del PhonA.
En una etapa 172, el fonema (o fonemas)
seleccionados se envían hacia el módulo de asignación fonética de
salida 40 para que sirvan de suministro al módulo 50.
La etapa 200 de la figura 3 se alcanza desde la
etapa 156 del diagrama de flujo de la figura 2.
A partir de la etapa 200, el sistema pasa a la
etapa 224 siempre que se cumpla una de las dos condiciones:
- -
- El PhonA es un diptongo que se tiene que asignar a dos vocales;
- -
- El PhonA es africado, el PhonB no es una consonante africada, pero puede ser el componente de una africada.
\vskip1.000000\baselineskip
El parámetro Loop indica el número de veces que
la tabla TabB se ha explorado de arriba a abajo. Su valor puede ser
0 ó 1.
El Loop se ajustará al valor 1 solo si el PhonA
es un diptongo o una africada, ya que no es posible alcanzar la
etapa 204 con un Loop igual a 1. En la etapa 204 se comprueba la
Maximum Condition. Se consigue si el valor de la puntuación (Score)
es mayor o igual que ello y el grupo de n rasgos fonéticos para
PhonB es menor que el grupo de BestPhon.
Si se cumple la condición, el sistema pasa a la
etapa 208, donde el MaxScore se reduce al valor de la puntuación.
Y el PhonB se convierte en BestPhon.
En una etapa 212, Indx se compara con TbLen (el
número de fonemas en TabB).
Si Indx es mayor o igual que TbLen, el sistema
pasa a la etapa 284, que se describe a continuación.
Si Indx es menor, entonces PhonB no es el último
fonema de la tabla y el sistema pasa a la etapa 220, donde Indx
aumenta en 1.
Si PhonB es el último fonema en la tabla,
entonces la búsqueda se termina y el BestPhon (habiendo asociado la
puntuación MaxScore) es el fonema candidato para sustituir al
PhonA.
En una etapa 224, se comprueba el valor para
Loop.
Si Loop es igual a 0, entonces el sistema pasa a
la etapa 228, donde se realiza una comprobación para saber si el
PhonB es un diptongo o una africada.
Si la comprobación es positiva (por ejemplo, si
el PhonB es un diptongo o africado), la siguiente etapa es la etapa
232.
En este punto, en una etapa 232 se comprueba la
Maximum Condition entre Score y MaxScore.
Si se alcanza la condición, (por ejemplo, Score
es mayor que MaxScore), en una etapa 236 el MaxScore se reduce al
valor de Score y el PhonB se convierte en BestPhon.
En una etapa 240 (que se alcanza si la
comprobación de la etapa 228 muestra que el PhonB no es diptongo no
africado), se realiza un comprobación para saber si existe una
Maximum Condition ente Score y TmpScrMAX (con el FirstBestComp en
el lugar de BestPhon). Si se consigue (por ejemplo, si Score es
mayor que TmpScrMAX) en una etapa 244, TmpScrMax se retrasa
mediante el Score y FirstBestComp mediante el PhonB.
En una etapa 248, se realiza una comprobación
para saber si el PhonB es el último fonema en TabB (entonces Indx
es igual a TabLen).
Si la comprobación es positiva (252), el valor
para MaxScore se guarda como la variable FirstMaxScore, y el
BestPhon se guarda como FirstBest y, posteriormente, en una etapa
256, Indx se ajusta a 0, mientras que Continue se ajusta a 1 (de
modo que también el segundo componente para PhonA se buscará), y
Score se ajusta a 0.
Una etapa 260 se alcanza a partir de la etapa
224 si Loop es igual a 1, concretamente si PhonB se examina como un
posible segundo componente para PhonA. En una etapa 260, se realiza
una comprobación pasa saber si se consigue la máxima condición en
comparación con Score y MaxScore (que pertenece a BestPhon).
En una etapa 264, Score se almacena en MaxScore
y PhonB en BestPhon en el caso de que se consiga la máxima
condición. En una etapa 268, se realiza una comprobación para saber
si PhonB es el último fonema de la tabla y, si así es, el sistema
pasa a la etapa 272.
En la etapa 272, un fonema muy similar a PhonA
se puede seleccionar entre un fonema divisible o una pareja de
fonemas en la voz de la lengua del hablante si se ha cumplido la
condición que FirstMaxScore es mayor o igual que (TmpScrMax +
MaxScore). El valor más alto de los miembros de la relación se
almacena como un MaxScore. En el caso de que la elección sea un par
de fonemas, será FirstBestCmp y BestPhon. Si no, solo se
considerará FirstBest.
Cabe destacar que BestPhon (encontrado en la
segunda iteración) no puede ser diptongo o africado. En una etapa
276 Indx se aumenta en 1 y Score se ajusta a 0.
De la etapa 280, el sistema retrocede a la etapa
104.
La etapa 284 se alcanza desde la etapa 272 (o la
etapa 2112), cuando se completa la búsqueda. En la etapa 284, se
realiza una comparación entre MaxScore y una constante umbral Thr.
Si MaxScore es mayor, entonces el fonema candidato (o el par de
fonemas) es el substituto para PhonA. Si no, PhonA se asigna al
fonema cero.
El diagrama de flujo de la figura 4 es una
descripción detallada del bloque 124 del diagrama de la figura
2.
Una etapa 300 se alcanza si PhonA es un
diptongo.
En una etapa 302, se realiza una comprobación
para saber si PhonB es un diptongo y Loop es igual a 0. Si se
cumple, el sistema pasa a la etapa 302 donde, tras comprobar los
rasgos para PhonA, el sistema pasa a la etapa 306 si PhonA es un
diptongo que se tiene que asignar a una sola vocal.
Los diptongos de este tipo tienen un primer
componente que es media y central y el segundo componente es
cerrado-semicerrado y posterior.
De la etapa 306, el sistema pasa a la etapa 144.
[0117] En una etapa 308, se requiere la función de comparar dos
diptongos.
En una etapa 310, las categorías (b) de los dos
fonemas se comparan mediante dicha función y Score se aumenta en 1
por cada rasgo común encontrado.
En una etapa 312, los primeros componentes de
los dos diptongos se comparan y en una etapa 314 una función
denominada F_CasiSpec_Voc se requiere para los dos componentes.
Esta función realiza tres comprobaciones que se
cumplen si:
- los componentes de los dos diptongos son
indistintamente vocales abiertas, o vocales
abierta-medioabierta, anterior y no redondeada;
- el componente de PhonA es abierto y central,
y en TabB no existen fonemas que tengan ambas categorías, y PhonB
es semicerrado y anterior;
- el componente de PhonA es cerrado, anterior y
no redondeado, o cerrado-semicerrado, anterior y
redondeado, y en TabB ningún fonema tiene dichos rasgos mientras
que PhonB es cerrado posterior y redondeado o
cerrado-semicerrado, posterior y redondeado.
Si se cumple alguna de las tres condiciones, en
una etapa 316 el valor de Score se retrasa añadiendo (KOpen * 2) al
mismo.
Si no, en una etapa 318, se requiere una función
F_ValPlace_Voc para los dos componentes.
Dicha función compara las categorías anterior,
central y posterior (categoría (d)).
Si son idénticas, Score se aumenta en Kopen; si
son diferentes, se añade un valor a Score que está compuesto de
Kopen menos la constante DecrOpen si la distancia entre las dos
categorías es 1, mientras que Score no se aumenta si la distancia
es 2.
Una distancia igual a uno existe entre central y
anterior y entre central y posterior, mientras que una distancia
igual a dos existe entre anterior y posterior.
En una etapa 320 se requiere una función
F_ValOpen_Voc para compara los dos componentes del diptongo.
Específicamente, F_ValOpen_Voc funciona de manera cíclica comparando
los primeros y los segundos componentes en dos iteraciones
posteriores.
La función compara las categorías (e) y añade a
Score la constante Kopen menos el valor de la distancia entre las
categorías incluida posteriormente en la tabla 1.
La matriz es simétrica, mediante la cual solo se
registró la porción superior.
Al realizar un ejemplo numérico, si PhonA es una
vocal cerrada y PhonB es una vocal mediocerrada, un valor igual a
(KOpen-(6 * Lstep)) se añadirá a Score que, considerando el valor de
las constantes, es igual a 8.
En una etapa 322, si ambos componentes tienen el
rasgo redondeo, la constante (KOpen + 1) se añade a Score. De forma
inversa, si solo uno de los dos es redondeado, entonces Score se
reduce por Kopen.
De la etapa 324, el sistema retrocede a la etapa
314 si los dos primeros componentes se han comparado; de forma
inversa, una etapa 326 se alcanza cuando también los segundos
componentes se han comparado.
En la etapa 326, la comparación de los dos
diptongos se termina y el sistema retrocede a la etapa 144.
En una etapa 328, se realiza una comprobación
para saber si PhonB es un diptongo y Loop es igual a 1. Si así
ocurre, el sistema pasa a la etapa 306.
En una etapa 330, se realiza una comprobación
para saber si PhonA es un diptongo que se tiene que asociar a una
sola vocal. Si así ocurre, en una etapa 331 Loop se comprueba y, si
es igual a 1, se alcanza la etapa 306.
En una etapa 332, se crea un fonema
TmpPhonA.
TmpPhonA es una vocal sin características de
diptongo y que tiene rasgos de mediocerrada, posterior y
redondeada.
Posteriormente, el sistema pasa a una etapa 334,
donde TmpPhonA y PhonB se comparan. La comparación se efectúa
forzando la comparación entre dos fonemas vocálicos sin categoría de
diptongo.
Dicha función, presente también en la etapa 120
del diagrama de flujo de la figura 2, se describe detalladamente en
la figura 5.
En una etapa 336, la función se reclama para
realizar una comparación entre un componente de PhonA y PhonB: como
consecuencia, en una etapa 338, si Loop es igual a 9, el primer
componente de PhonA se compara con PhoB (en una etapa 344). De
forma inversa, si Loop es igual a 1, el segundo componente de PhonA
se compara con PhonB (en una etapa 340).
En la etapa 340, se hace referencia a las
categorías nasal y rótica, aumentando Score por cada identidad
encontrada.
En una etapa 342, si PhonA tiene un acento en su
primer componente y PhonB es una vocal acentuada, Score aumenta en
2. En todos los otros casos se reduce en 2.
En una etapa 344, si PhonA tiene acento en su
segundo componente y PhonB es una vocal acentuada, entonces Score
aumenta en 2; de lo contrario, se reduce en 2 en el resto de los
casos.
En 348, las categorías (d) y (e) del primer o
segundo componente de PhonA (dependiendo de si Loop es igual a 0 o
1, respectivamente) se comparan con PhonB.
La comparación de los vectores de rasgos y la
actualización de Score está realizada basándose en los mismos
principios ya descritos en las etapas de 314 a 322.
Una etapa 350 marca el retroceso a la etapa
144.
El diagrama de flujo de la figura 5 describe
detalladamente la etapa 120 del diagrama de la figura 2,
concretamente la comparación entre dos vocales que no son
diptongos.
En una etapa 400 se realiza una comparación para
saber si PhonB es un diptongo. Si así es, el sistema pasa
directamente a la etapa 470.
En una etapa 410, se realiza una comparación
sobre la base de las categorías (b) aumentado Score en 1 por cada
categoría idéntica encontrada.
De forma inversa, en una etapa 420, la función
F_CasiSpec_Voc ya descrita anteriormente se reclama para comprobar
si se alcanza una de las condiciones de la función.
Si así ocurre, Score se aumenta en la cantidad
(KOpen * 2) en una etapa 430.
En el caso de un resultado negativo, en una
etapa 440 se reclama la función F_ValPlace_Voc.
Posteriormente, en una etapa 450, se reclama la
función F_ValOpen_Voc.
En una etapa 460, si ambas vocales tienen la
categoría redondeada, Score aumenta en la constante (KOpen + 1);
si, por el contrario, solo se encuentra un fonema con la categoría
redondeada, entonces Score aumenta en KOpen.
Una etapa 470 marca el final de la comparación,
tras la cual el sistema retrocede a la etapa 144.
El diagrama de flujo de la figura 6 describe
detalladamente el bloque 132 del diagrama de la figura 1.
En una etapa 500, se comparan las dos
consonantes, mientras que la variable TmpKP se ajusta a 0 y la
función F_ CasiSpec_Cons se reclama en una etapa 504.
La función en cuestión comprueba si se cumple
alguna de las condiciones siguientes:
- 1.0
- PhonA uvular fricativo y en TabB no hay fonemas con estas características y PhonB es vibrante simple -alveolar;
- 1.1
- PhonA uvular fricativo y en TabB no hay fonemas con estas características y PhonB es aproximante-alveolar;
- 1.2
- PhonA uvular fricativo y en TabB no hay fonemas con estas características y PhonB es uvular-vibrante simple;
- 1.3
- PhonA uvular fricativo y en TabB no hay fonemas con estas características y o con las de PhonB de 1.0 o 1.1 o 1.2, y PhonB es lateral-alveolar;
- 2.0
- PhonA glotal fricativo y en TabB no hay fonemas con estas características y PhonB es fricativo-velar;
- 3.0
- PhonA fricativo-velar y en TabB no hay fonemas con estas características y PhonB es fricativo-glotal o oclusivo-velar;
- 4.0
- PhonA vibrante simple-alveolar y en TabB no hay fonemas con estas características y PhonB es fricativo-uvular;
- 4.1
- PhonA vibrante simple-alveolar y en TabB no hay fonemas con estas características y PhonB es aproximante-alveolar;
- 4.2
- PhonA vibrante simple-alveolar y en TabB no hay fonemas con estas características o con las de PhonB de 4.0 y 4.1, y PhonB es lateral-alveolar;
- 5.0
- PhonA nasal-velar y en TabB no hay fonemas con estas características y PhonB es nasal-alveolar;
- 5.1
- PhonA nasal-velar y en TabB no hay fonemas con estas características o con las de PhonB de 5.0 y PhonB es nasal-bilabial;
- 6.0
- PhonA es fricativo-dental-sordo y en TabB no hay fonemas con estas características y PhonB es aproximante-dental;
- 6.1
- PhonA es fricativo-dental-sordo y en TabB no hay fonemas con estas características o con las de PhonB de 6.0, y PhonB es oclusivo-dental;
- 6.2
- PhonA es fricativo-dental-sordo y en TabB no hay fonemas con estas características o con las de PhonB of 6.0 y PhonB es oclusivo-alveolar;
- 7.0
- PhonA es fricativo-dental-sonoro y en TabB no hay fonemas con estas características y PhonB es aproximante-dental;
- 7.1
- PhonA es fricativo-dental-sonoro y en TabB no hay fonemas con estas características o con las de PhonB de 7.0 y PhonB es oclusivo-dental;
- 7.2
- PhonA es fricativo-dental-sonoro y en TabB no hay fonemas con estas características o las de PhonB de 7.0 y PhonB es oclusivo-alveolar;
- 8.0
- PhonA es fricativo-palatal-alveolar-sordo y en TabB no hay fonemas con estas características y PhonB es fricativo-postalveolar;
- 8.1
- PhonA es fricativo-palatal-alveolar-sordo y en TabB no hay fonemas con estas características o las de PhonB de 8.0 y PhonB es fricativo-palatal;
- 9.0
- PhonA es fricativo-postalveolar y en TabB no hay fonemas con estas características o fricativas-retroflejas y PhonB es fricativo-alveolar-palatal;
- 10.0
- PhonA es fricativo-postalveolar-velar y en TabB no hay fonemas con estas características y PhonB es fricativo-alveolar-palatal;
- 10.1
- PhonA es fricativo-postalveolar-velar y en TabB no hay fonemas con estas características y PhonB es fricativo-palatal;
- 10.2
- PhonA es fricativo-postalveolar-velar y en TabB no hay fonemas con estas características o las de 10.0 o 10.1 y PhonB es fricativo-postalveolar;
- 11.0
- PhonA es oclusivo-palatal y en TabB no hay fonemas con estas características y PhonB es lateral-palatal;
- 11.1
- PhonA es oclusivo-palatal y en TabB no hay fonemas con estas características o las de PhonB de 11.0 y PhonB es fricativo-palatal o aproximante-palatal;
- 12.0
- PhonA es fricativo-bilabial-dental-sonoro y en TabB no hay fonemas con estas características y PhonB es aproximante-bilabial-sonoro;
- 13.0
- PhonA es fricativo-palatal-sonoro y en TabB no hay fonemas con estas características y PhonB es oclusivo-palatal-sonoro o aproximante-palatal-sonoro;
- 14.0
- PhonA es lateral-palatal y en TabB no hay fonemas con estas características y PhonB es oclusivo-palatal;
- 14.1
- PhonA es lateral-palatal y en TabB no hay fonemas con estas características o las de PhonB of 14.0 y PhonB es fricativo-palatal o aproximante-palatal;
- 15.0
- PhonA es aproximante-dental y en TabB no hay fonemas con estas características y PhonB es oclusivo-dental o oclusivo-alveolar;
- 16.0
- PhonA es aproximante-bilabial y en TabB no hay fonemas con estas características y PhonB es oclusivo-bilabial;
- 17.0
- PhonA es aproximante-velar y en TabB no hay fonemas con estas características y PhonB es oclusivo- velar;
- 18.0
- PhonA es aproximante-alveolar y en TabB no hay fonemas con estas características y PhonB es vibrante simple-alveolar o fricativo-uvular o vibrante simple-uvular;
- 18.1
- PhonA es aproximante-alveolar y en TabB no hay fonemas con estas características o las de PhonB en 18.0 y PhonB es lateral-alveolar.
\vskip1.000000\baselineskip
Si cualquiera de estas condiciones se cumple, el
sistema pasa a la etapa 508, donde TmpPhonB se substituye por PhonB
durante todo el proceso de comparación hasta una etapa 552.
Si no se cumple ninguna de las condiciones
anteriores, el sistema pasa directamente a la etapa 512, donde se
comparan las categorías (f) modales.
Si PhonA y PhonB tienen la misma categoría,
entonces Score aumenta en KMode.
\newpage
En una etapa 516, una función F_CompPen_Consse
reclama para controlar si se cumple la siguiente condición:
-PhonA es
fricativo-postalveolar y
PhonB (o TmpPhonB) es
fricativo-postalveolar-velar.
Y si se cumple la condición, entonces Score se
reduce en KPlacel.
En una etapa 520, una función F_ValPlace_Cons se
reclama para incrementar basándose en lo que se registra en la
tabla 2.
En la tabla en cuestión, las categorías para
PhonA están en el eje vertical y las de PhonB en el eje horizontal.
Cada celda incluye un valor de bonificación para añadirlo a
Score.
Al considerar, como por ejemplo, que PhonA tiene
la categoría labiodental y PhonB la categoría dental solo,
entonces, al examinar la línea de labiodental y cruzar la columna
para dental, se encuentra que el valor Kplace2 se tiene que añadir
a Score.
En una etapa 524, se realiza una comprobación
para saber si PhonA es aproximante-semivocal y PhonB
(o TmpPhonB) es aproximante. Si la comprobación da un resultado
positivo, el sistema pasa a la etapa 528, donde se realiza una
prueba sobre TmpKP.
Dicha prueba se realiza para asegurar que, en el
caso de que los dos fonemas que se estén comparando sean
aproximantes y con categorías de lugar idénticas, su Score es mayor
que en el caso de una comparación
consonante-vocal.
Si dicha variable es mayor o igual a KPlace1,
entonces en una etapa 532 TmpKP se aumenta en KMode. En caso
negativo, TmpKP se ajusta a cero en una etapa 536.
En una etapa 540, la cantidad TmpKP se añade a
Score.
En una etapa 544, s realiza una comprobación
para saber si Score es mayor que KMode.
Si así ocurre, en una etapa 548 las categorías
(h) se comparan con la excepción de la categoría semiconsonante.
Por cada identidad encontrada, Score aumenta en 1.
Una etapa 552 marca el final de la comparación,
tras la cuál el sistema retrocede a la etapa 144 de la figura
1.
El diagrama de flujo de la figura 7 hace
referencia a la comparación entre fonemas cuando PhonA es una
consonante africada (etapa 136 de la figura 2).
En una etapa 600, comienza la comparación y en
una etapa 604 se realiza una comprobación para saber si PhonB es
africado y Loop igual a 0.
Si así ocurre, el sistema pasa a la etapa 608,
que causa a su vez que el sistema retroceda a la etapa 132.
En una etapa 612, se realiza una comprobación
para saber si PhonB es africado y Loop igual a 1.
Si así ocurre, se alcanza directamente una etapa
600.
En una etapa 616, se realiza una comprobación
para saber si se puede considerar PhonB está compuesto por una
africada.
Esto no puede ocurrir si Loop es igual a 1 y
PhonB tiene las categorías
fricativo-postalveolar-velar.
Si así ocurre, el sistema pasa a la etapa
660.
En una etapa 620, se realiza una comprobación
del valor de Loop: si es igual 0, el sistema pasa a la etapa
642.
En esa etapa, PhonA se sustituye temporalmente
en la comparación con PhonB y TmpPhonA; tiene las mismas
características que PhonA, excepto por el hecho de que en lugar de
ser africado es oclusivo.
En una etapa 628, se realiza una comprobación
para saber si TmpPhonA tiene las categorías labiodentales; si así
ocurre en una etapa 636, las categorías dentales se eliminan del
vector de categorías.
En una etapa 632, se realiza una comprobación
para saber si TmpPhonA tiene la categoría postalveolar; Si así
ocurre, dicha categoría se reemplaza por la categoría alveolar en
una etapa 644.
En una etapa 640, se realiza una comprobación
para saber si TmpPhonA tiene las categorías
alveolar-palatal; si así ocurre, se elimina la
categoría palatal.
En una etapa 652 PhonA se reemplaza
temporalmente (hasta alcanzar la etapa 144) en comparación con
PhonB por TmpPhonA; tiene las mismas características que PhonA,
excepto por el hecho de que es fricativo en lugar de ser
africado.
La etapa 656 marca la evolución hacia la
comparación de la etapa 132 al comparar TmpPhonA con PhonB.
Una etapa 660 marca el retroceso a la etapa
144.
El diagrama de flujo de la figura 8 describe
detalladamente la etapa 140 del diagrama de flujo de la figura
2.
Una etapa 700 se alcanza se alcanza si PhonA es
una consonante y PhonB es una vocal o si PhonA es vocal y PhonB
consonante. El fonema TmpPhonA se establece como el fonema cero.
En una etapa 705, se realiza una comprobación
para saber si PhonA es vocal y PhonB es consonante. Si así ocurre,
la próxima etapa es la etapa 780.
En una etapa 710, se realiza una comprobación
para saber si PhonA es
aproximante-semiconsonante.
Si no es así, el sistema pasa directamente a la
etapa 780.
En una etapa 720, se realiza una comprobación
para saber si PhonA es palatal. Si así ocurre, en una etapa 730
TmpPhonA se transforma en una vocal cerrada anterior no acentuada y
la comparación de una etapa 120 se realiza entre TmpPhonA y
PhonB.
En una etapa 740, se realiza una comprobación
para saber si PhonA es bilabial-velar. Si así
ocurre, en una etapa 750 TmpPhonA se transforma en un vocal
redondeada-posterior-cerrada-no
acentuada y la comparación de la etapa 120 (figura 2) se realiza
entre TmpPhonA y PhonB.
En una etapa 760, se realiza una comprobación
para saber si PhonA es bilabial-palatal. Si así
ocurre, en una etapa 770 TmpPhonA se transforma en un vocal
redondeada-cerrada-no acentuada y la
comparación de la etapa 120 se lleva a cabo entre TmpPhonA y
PhonB.
Una etapa 780 marca el retroceso del sistema a
la etapa 144.
A continuación, se muestran las tablas 1 y 2,
mencionadas en diversas ocasiones anteriormente.
Por supuesto, sin prejuicios contra los
principios subyacentes de la invención, las discrepancias y las
realizaciones pueden variar, significativamente, con respecto a lo
que se ha descrito, solo por medio de ejemplos, sin aparatarse del
ámbito de la invención como se define en las reivindicaciones
adjuntas.
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
(Tabla pasa a página
siguiente)
Esta lista de referencias citadas por el
solicitante está prevista únicamente para ayudar al lector y no
forma parte del documento de patente europea. Aunque se ha puesto
el máximo cuidado en su realización, no se pueden excluir errores u
omisiones y la OEP declina cualquier responsabilidad en este
respecto.
\bullet C. TRABER et al. From
multilingual to polyglot speech synthesis. Proceedings of the
Eurospeech, 1999, 835-838 [0008]
\bullet W.N. CAMPBELL.
Foreign-language speech synthesis. Proceedings
ESCA/COCSDA ETRW on Speech Synthesis, 1998 [0010]
\bullet Talking Foreign. Concatenative Speech
Synthesis and Language Barrier. Proceedings of the Eurospeech
Scandinavia, 2001, 337-340 [0010].
Claims (13)
1. Un procedimiento para la conversión texto a
voz de un texto (T1,..., Tn) en una primera lengua incluyendo
secciones en al menos una segunda lengua, caracterizado por
el hecho de que incluye las etapas de:
- -
- convertir (30) dichas secciones de dicha segunda lengua en conjuntos de fonemas de dicha segunda lengua,
- -
- asignar (40; 40b) al menos parte de dichos fonemas de dicha segunda lengua a conjuntos de fonemas de dicha primera lengua,
- -
- incluyendo dichos conjuntos de fonemas de dicha primera lengua resultante de dicha asignación en el flujo de fonemas, y
- -
- generar (50) una señal de voz a partir de dicho flujo de fonemas resultante.
donde dicha etapa de asignación (40) incluye las
operaciones de:
- -
- llevar a cabo pruebas de similitud entre cada dicho fonema de dicha segunda lengua estando asignada y un conjunto de fonemas de asignación candidatos de dicha primera lengua, estando dichas pruebas de similitud realizadas representando dichos fonemas de dicha segunda lengua y dichos fonemas de asignación candidatos de dicha primera lengua como vectores de categorías, donde un vector representativo de categorías fonéticas de cada dicha segunda lengua está sujeto a la comparación con un conjunto de vectores de categoría representativos de la bases fonética categoría a categoría,
- -
- asignar valores de puntuación respectivos a dichas comparaciones categoría a categoría, estando dichos valores de puntuación respectivos agregados para generar puntuaciones respectivas a los resultados de dichas pruebas, y
- -
- asignar (40b) cada dicho fonema de dicha segunda lengua a un conjunto de fonemas de asignación de dicha primera lengua seleccionada de dichos fonemas de asignación candidatos como una función de dichas puntuaciones.
2. El procedimiento de la reivindicación 1,
caracterizado por el hecho de que incluye la etapa de asignar
(40) dicho fonema de dicha segunda lengua a un conjunto de fonemas
de asignación de dicha primera lengua seleccionada de:
- -
- un conjunto de fonemas de dicha primera lengua incluyendo tres, dos o un fonema de dicha primera lengua, o
- -
- un conjunto vacío, donde no se incluye ningún fonema en dicho flujo resultante para dicho fonema en dicha segunda lengua.
3. El procedimiento de la reivindicación 2,
caracterizado por el hecho de que dicha etapa de asignación
(40) incluye las operaciones de:
- -
- definir un valor umbral (th) para los resultados de dichas pruebas, y
- -
- asignar a dicho conjunto vacío de fonemas de dicha primera lengua cualquier fonema de dicha segunda lengua en el que cualquiera de dichas puntuaciones no consiga alcanzar dicho valor umbral.
4. El procedimiento de la reivindicación 1,
caracterizado por el hecho de que incluye las etapas de
asignar distintos pesos a dichos valores de puntuación al agregar
dichos valores de puntuación respectivos para generar dichas
puntuaciones.
5. El procedimiento de la reivindicación 1,
caracterizado por el hecho de que incluye la operación de
seleccionar dichas categorías fonéticas de entre el grupo que
consiste en:
- -
- (a) dos categorías básicas vocal y consonante;
- -
- (b) la categoría diptongo;
- -
- (c) las características vocálicas (por ejemplo, vocal) acentuada/no acentuada, no silábica, larga, nasal, róti- {}\hskip0.4cm ca, redondeada
- -
- (d) las categorías vocálicas anterior, central, posterior;
\newpage
- -
- (e) las categorías vocálicas cerrada, cerrada-mediocerrada, mediocerrada, mediocerrada, media, medio- {}\hskip0.4cm abierta, abierta-medioabierta, abierta;
- -
- (f) las categorías del modo consonántico oclusivo, nasal, vibrante múltiple, vibrante simple, fricativo, fri- {}\hskip0.4cm cativa lateral, aproximante, lateral, africada;
- -
- (g) las categorías del lugar consonántico bilabial, labiodental, dental, alveolar, postalveolar, retrofleja, pa- {}\hskip0.4cm latal, velar, uvular, faríngea, glotal; y
- -
- (h) las otras categorías consonánticas sonora, larga, silábica, aspirada, oclusiva, sorda, semiconsonante.
6. El procedimiento de la reivindicación 1,
caracterizado por el hecho de que incluye la etapa de
pronunciar (50, 60) dicho flujo de fonemas resultante por medio de
una voz hablante de dicha primera lengua.
7. Un sistema para la conversión texto a voz de
un texto (T1,..., Tn) en una primera lengua incluyendo secciones en
al menos una segunda lengua, caracterizado por el hecho de
que incluye:
- -
- un transcriptor grafema/morfema (30) para convertir dichas secciones en dicha segunda lengua en fonemas de dicha segunda lengua,
- -
- un módulo de asignación (40, 40b) para asignar al menos parte de dichos fonemas de dicha segunda lengua a conjuntos de fonemas de dicha segunda lengua,
- -
- un módulo de síntesis de voz (50) adaptado para ser suministrado con un flujo de fonemas resultante incluyendo dichos conjuntos de fonemas de dicha primera lengua resultante de dicha asignación y el flujo de fonemas de dicha primera lengua representativa de dicho texto, y para generar una señal de voz de dicho flujo resultante de fonemas,
donde dicho módulo de asignación (40) está
configurado para:
- -
- llevar a cabo pruebas de similitud entre cada dicho fonema de dicha segunda lengua estando asignada y un conjunto de fonemas de asignación candidatos de dicha primera lengua, estando dichas pruebas de similitud realizadas representando dichos fonemas de dicha segunda lengua y dichos fonemas de asignación candidatos de dicha primera lengua como vectores de categoría fonéticos, donde un vector representativo de cada dicho fonema de dicha segunda lengua está sujeto a comparaciones con un conjunto de vectores de categoría fonéticos representativos de las categorías fonéticas de dichos fonemas de asignación candidatos en dicha primera lengua, estando dicha comparación realizada sobre una base categoría a categoría,
- -
- asignar valores de puntuación respectivos a dichas comparaciones categoría a categoría, estando dichos valores de puntuación agregados para generar puntuaciones respectivas a los resultados de dichas pruebas, y
- -
- asignar (40b) cada dicho fonema de dicha segunda lengua a un grupo de fonemas de asignación de dicha primera lengua seleccionada de dichos fonemas de asignación candidatos como función de dichas puntuaciones.
8. El sistema de la reivindicación 7,
caracterizado por el hecho de que dicho modulo de asignación
(40) está configurado para asignar (40b) dicho fonema de dicha
segunda lengua a un grupo de fonemas de asignación de dicha primera
lengua seleccionada de entre:
- -
- un conjunto de fonemas de dicha primera lengua incluyendo tres, dos o un fonema de dicha primera lengua, o
- -
- un conjunto vacío, donde ningún fonema está incluido en dicho flujo resultante para dicho fonema en dicha segunda lengua.
9. El sistema de la reivindicación 8,
caracterizado por el hecho de que dicho modulo de asignación
(40) está configurado para:
- -
- definir un valor umbral (Th) para los resultados de dichas pruebas, y
- -
- asignar a dicho conjunto vacío de fonemas de dicha primera lengua cualquier fonema de dicha segunda lengua en el que cualquiera de dichas puntuaciones no alcanza dicho valor umbral.
10. El sistema de la reivindicación 7,
caracterizado por el hecho de que dicho modulo de asignación
(40) está configurado para asignar ponderaciones diferenciadas a
dichos valores de puntuación al agregar dichos valores de
puntuación respectivos para generar dichas puntuaciones.
11. El sistema de la reivindicación 7,
caracterizado por el hecho de que dicho modulo de asignación
(40) está configurado para operar basándose en categorías fonéticas
fuera del grupo que consiste en:
- -
- las dos categorías básicas vocal y consonante;
- -
- la categoría diptongo;
- -
- las características vocálicas (por ejemplo, vocal) acentuada/no acentuada, no silábica, larga, nasal, rótica, redondeada;
- -
- las categorías vocálicas anterior, central, posterior;
- -
- las categorías vocálicas cerrada, cerrada-mediocerrada, mediocerrada, mediocerrada, media, medioabierta, abierta-medioabierta, abierta;
- -
- las categorías del modo consonántico oclusiva, nasal, vibrante múltiple, vibrante simple, fricativa, fricativa lateral, aproximante, lateral, africada;
- -
- las categorías del lugar consonántico bilabial, labiodental, dental, alveolar, postalveolar, retrofleja, palatal, velar, uvular, faríngea, glotal; y
- -
- las otras categorías consonánticas sonora, larga, silábica, aspirada, oclusiva, sorda, semiconsonante.
12. El sistema de la reivindicación 7,
caracterizado por el hecho de que dicho módulo de síntesis de
voz (50) está configurado para pronunciar (50, 60) dicho flujo
resultante de fonemas por medio de una voz hablante de dicha
primera lengua.
13. Un programa informático que se puede cargar
en la memoria de al menos un ordenador y que incluye porciones de
software que realizan las etapas del procedimiento de cualquiera de
las reivindicaciones 1 a 6.
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| PCT/EP2003/014314 WO2005059895A1 (en) | 2003-12-16 | 2003-12-16 | Text-to-speech method and system, computer program product therefor |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| ES2312851T3 true ES2312851T3 (es) | 2009-03-01 |
Family
ID=34684493
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| ES03799483T Expired - Lifetime ES2312851T3 (es) | 2003-12-16 | 2003-12-16 | Procedimiento y sistema texto a voz y el programa informatico asociado. |
Country Status (9)
| Country | Link |
|---|---|
| US (2) | US8121841B2 (es) |
| EP (1) | EP1721311B1 (es) |
| CN (1) | CN1879147B (es) |
| AT (1) | ATE404967T1 (es) |
| AU (1) | AU2003299312A1 (es) |
| CA (1) | CA2545873C (es) |
| DE (1) | DE60322985D1 (es) |
| ES (1) | ES2312851T3 (es) |
| WO (1) | WO2005059895A1 (es) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US11848022B2 (en) | 2006-07-08 | 2023-12-19 | Staton Techiya Llc | Personal audio assistant device and method |
Families Citing this family (206)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2001013255A2 (en) | 1999-08-13 | 2001-02-22 | Pixo, Inc. | Displaying and traversing links in character array |
| US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
| ITFI20010199A1 (it) | 2001-10-22 | 2003-04-22 | Riccardo Vieri | Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico |
| WO2005059895A1 (en) | 2003-12-16 | 2005-06-30 | Loquendo S.P.A. | Text-to-speech method and system, computer program product therefor |
| US7415411B2 (en) * | 2004-03-04 | 2008-08-19 | Telefonaktiebolaget L M Ericsson (Publ) | Method and apparatus for generating acoustic models for speaker independent speech recognition of foreign words uttered by non-native speakers |
| US8036895B2 (en) * | 2004-04-02 | 2011-10-11 | K-Nfb Reading Technology, Inc. | Cooperative processing for portable reading machine |
| US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
| US7633076B2 (en) | 2005-09-30 | 2009-12-15 | Apple Inc. | Automated response to and sensing of user activity in portable devices |
| DE102006039126A1 (de) * | 2006-08-21 | 2008-03-06 | Robert Bosch Gmbh | Verfahren zur Spracherkennung und Sprachwiedergabe |
| US8510112B1 (en) | 2006-08-31 | 2013-08-13 | At&T Intellectual Property Ii, L.P. | Method and system for enhancing a speech database |
| US7912718B1 (en) * | 2006-08-31 | 2011-03-22 | At&T Intellectual Property Ii, L.P. | Method and system for enhancing a speech database |
| US8510113B1 (en) | 2006-08-31 | 2013-08-13 | At&T Intellectual Property Ii, L.P. | Method and system for enhancing a speech database |
| US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
| US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
| US8290775B2 (en) * | 2007-06-29 | 2012-10-16 | Microsoft Corporation | Pronunciation correction of text-to-speech systems between different spoken languages |
| JP4455633B2 (ja) * | 2007-09-10 | 2010-04-21 | 株式会社東芝 | 基本周波数パターン生成装置、基本周波数パターン生成方法及びプログラム |
| US9053089B2 (en) | 2007-10-02 | 2015-06-09 | Apple Inc. | Part-of-speech tagging using latent analogy |
| US8165886B1 (en) | 2007-10-04 | 2012-04-24 | Great Northern Research LLC | Speech interface system and method for control and interaction with applications on a computing system |
| US8595642B1 (en) | 2007-10-04 | 2013-11-26 | Great Northern Research, LLC | Multiple shell multi faceted graphical user interface |
| US8620662B2 (en) * | 2007-11-20 | 2013-12-31 | Apple Inc. | Context-aware unit selection |
| KR101300839B1 (ko) * | 2007-12-18 | 2013-09-10 | 삼성전자주식회사 | 음성 검색어 확장 방법 및 시스템 |
| US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
| US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
| US8065143B2 (en) | 2008-02-22 | 2011-11-22 | Apple Inc. | Providing text input using speech data and non-speech data |
| US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
| US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
| US8464150B2 (en) | 2008-06-07 | 2013-06-11 | Apple Inc. | Automatic language identification for dynamic text processing |
| US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
| US8768702B2 (en) | 2008-09-05 | 2014-07-01 | Apple Inc. | Multi-tiered voice feedback in an electronic device |
| US8898568B2 (en) | 2008-09-09 | 2014-11-25 | Apple Inc. | Audio user interface |
| US20100082328A1 (en) * | 2008-09-29 | 2010-04-01 | Apple Inc. | Systems and methods for speech preprocessing in text to speech synthesis |
| US8583418B2 (en) * | 2008-09-29 | 2013-11-12 | Apple Inc. | Systems and methods of detecting language and natural language strings for text to speech synthesis |
| US8712776B2 (en) | 2008-09-29 | 2014-04-29 | Apple Inc. | Systems and methods for selective text to speech synthesis |
| US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
| WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
| KR101057191B1 (ko) * | 2008-12-30 | 2011-08-16 | 주식회사 하이닉스반도체 | 반도체 소자의 미세 패턴 형성방법 |
| US8862252B2 (en) * | 2009-01-30 | 2014-10-14 | Apple Inc. | Audio user interface for displayless electronic device |
| US8380507B2 (en) | 2009-03-09 | 2013-02-19 | Apple Inc. | Systems and methods for determining the language to use for speech generated by a text to speech engine |
| US10540976B2 (en) | 2009-06-05 | 2020-01-21 | Apple Inc. | Contextual voice commands |
| US20120311585A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Organizing task items that represent tasks to perform |
| US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
| US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
| US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
| US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
| US8682649B2 (en) | 2009-11-12 | 2014-03-25 | Apple Inc. | Sentiment prediction from textual data |
| US20110110534A1 (en) * | 2009-11-12 | 2011-05-12 | Apple Inc. | Adjustable voice output based on device status |
| US8600743B2 (en) | 2010-01-06 | 2013-12-03 | Apple Inc. | Noise profile determination for voice-related feature |
| US8381107B2 (en) | 2010-01-13 | 2013-02-19 | Apple Inc. | Adaptive audio feedback system and method |
| US8311838B2 (en) | 2010-01-13 | 2012-11-13 | Apple Inc. | Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts |
| US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
| US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
| US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
| US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
| US8977584B2 (en) | 2010-01-25 | 2015-03-10 | Newvaluexchange Global Ai Llp | Apparatuses, methods and systems for a digital conversation management platform |
| US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
| JP2011197511A (ja) * | 2010-03-23 | 2011-10-06 | Seiko Epson Corp | 音声出力装置、音声出力装置の制御方法、印刷装置および装着ボード |
| US9798653B1 (en) * | 2010-05-05 | 2017-10-24 | Nuance Communications, Inc. | Methods, apparatus and data structure for cross-language speech adaptation |
| US8639516B2 (en) | 2010-06-04 | 2014-01-28 | Apple Inc. | User-specific noise suppression for voice quality improvements |
| US8713021B2 (en) | 2010-07-07 | 2014-04-29 | Apple Inc. | Unsupervised document clustering using latent semantic density analysis |
| US8719006B2 (en) | 2010-08-27 | 2014-05-06 | Apple Inc. | Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis |
| US8719014B2 (en) | 2010-09-27 | 2014-05-06 | Apple Inc. | Electronic device with text error correction based on voice recognition data |
| US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
| US10515147B2 (en) | 2010-12-22 | 2019-12-24 | Apple Inc. | Using statistical language models for contextual lookup |
| TWI413105B (zh) * | 2010-12-30 | 2013-10-21 | Ind Tech Res Inst | 多語言之文字轉語音合成系統與方法 |
| US8781836B2 (en) | 2011-02-22 | 2014-07-15 | Apple Inc. | Hearing assistance system for providing consistent human speech |
| US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
| US20120310642A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Automatically creating a mapping between text data and audio data |
| US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
| US8812294B2 (en) | 2011-06-21 | 2014-08-19 | Apple Inc. | Translating phrases from one language into another using an order-based set of declarative rules |
| US8805869B2 (en) * | 2011-06-28 | 2014-08-12 | International Business Machines Corporation | Systems and methods for cross-lingual audio search |
| US8706472B2 (en) | 2011-08-11 | 2014-04-22 | Apple Inc. | Method for disambiguating multiple readings in language conversion |
| US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
| US8762156B2 (en) | 2011-09-28 | 2014-06-24 | Apple Inc. | Speech recognition repair using contextual information |
| EP2595143B1 (en) | 2011-11-17 | 2019-04-24 | Svox AG | Text to speech synthesis for texts with foreign language inclusions |
| US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
| US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
| US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
| US8775442B2 (en) | 2012-05-15 | 2014-07-08 | Apple Inc. | Semantic search using a single-source semantic model |
| US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
| WO2013185109A2 (en) | 2012-06-08 | 2013-12-12 | Apple Inc. | Systems and methods for recognizing textual identifiers within a plurality of words |
| US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
| US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
| US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
| US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
| US8935167B2 (en) | 2012-09-25 | 2015-01-13 | Apple Inc. | Exemplar-based latent perceptual modeling for automatic speech recognition |
| PL401371A1 (pl) * | 2012-10-26 | 2014-04-28 | Ivona Software Spółka Z Ograniczoną Odpowiedzialnością | Opracowanie głosu dla zautomatyzowanej zamiany tekstu na mowę |
| US9311913B2 (en) * | 2013-02-05 | 2016-04-12 | Nuance Communications, Inc. | Accuracy of text-to-speech synthesis |
| EP2954514B1 (en) | 2013-02-07 | 2021-03-31 | Apple Inc. | Voice trigger for a digital assistant |
| US10572476B2 (en) | 2013-03-14 | 2020-02-25 | Apple Inc. | Refining a search based on schedule items |
| US10642574B2 (en) | 2013-03-14 | 2020-05-05 | Apple Inc. | Device, method, and graphical user interface for outputting captions |
| US9977779B2 (en) | 2013-03-14 | 2018-05-22 | Apple Inc. | Automatic supplementation of word correction dictionaries |
| US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
| US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
| US9733821B2 (en) | 2013-03-14 | 2017-08-15 | Apple Inc. | Voice control to diagnose inadvertent activation of accessibility features |
| KR101759009B1 (ko) | 2013-03-15 | 2017-07-17 | 애플 인크. | 적어도 부분적인 보이스 커맨드 시스템을 트레이닝시키는 것 |
| WO2014144395A2 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | User training by intelligent digital assistant |
| WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
| CN105144133B (zh) | 2013-03-15 | 2020-11-20 | 苹果公司 | 对中断进行上下文相关处理 |
| US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
| US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
| WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
| WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
| WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
| HK1220268A1 (zh) | 2013-06-09 | 2017-04-28 | 苹果公司 | 用於實現跨數字助理的兩個或更多個實例的會話持續性的設備、方法、和圖形用戶界面 |
| US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
| JP2016521948A (ja) | 2013-06-13 | 2016-07-25 | アップル インコーポレイテッド | 音声コマンドによって開始される緊急電話のためのシステム及び方法 |
| JP2015014665A (ja) * | 2013-07-04 | 2015-01-22 | セイコーエプソン株式会社 | 音声認識装置及び方法、並びに、半導体集積回路装置 |
| KR101749009B1 (ko) | 2013-08-06 | 2017-06-19 | 애플 인크. | 원격 디바이스로부터의 활동에 기초한 스마트 응답의 자동 활성화 |
| US9245191B2 (en) * | 2013-09-05 | 2016-01-26 | Ebay, Inc. | System and method for scene text recognition |
| US8768704B1 (en) * | 2013-09-30 | 2014-07-01 | Google Inc. | Methods and systems for automated generation of nativized multi-lingual lexicons |
| US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
| US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
| US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
| US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
| US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
| US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
| US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
| US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
| US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
| US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
| US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
| US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
| US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
| US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
| US9966065B2 (en) | 2014-05-30 | 2018-05-08 | Apple Inc. | Multi-command single utterance input method |
| US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
| US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
| CA2958684A1 (en) * | 2014-08-21 | 2016-02-25 | Jobu Productions | Lexical dialect analysis system |
| US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
| US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
| US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
| US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
| US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
| US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
| US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
| US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
| US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
| US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
| CN105989833B (zh) * | 2015-02-28 | 2019-11-15 | 讯飞智元信息科技有限公司 | 多语种混语文本字音转换方法及系统 |
| US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
| US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
| US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
| US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
| US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
| US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
| US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
| US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
| US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
| US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
| US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
| US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
| US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
| US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
| US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
| CN106547511B (zh) | 2015-09-16 | 2019-12-10 | 广州市动景计算机科技有限公司 | 一种语音播读网页信息的方法、浏览器客户端及服务器 |
| US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
| US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
| US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
| US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
| KR20170044849A (ko) * | 2015-10-16 | 2017-04-26 | 삼성전자주식회사 | 전자 장치 및 다국어/다화자의 공통 음향 데이터 셋을 활용하는 tts 변환 방법 |
| US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
| US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
| US9947311B2 (en) | 2015-12-21 | 2018-04-17 | Verisign, Inc. | Systems and methods for automatic phonetization of domain names |
| US10102203B2 (en) * | 2015-12-21 | 2018-10-16 | Verisign, Inc. | Method for writing a foreign language in a pseudo language phonetically resembling native language of the speaker |
| US9910836B2 (en) | 2015-12-21 | 2018-03-06 | Verisign, Inc. | Construction of phonetic representation of a string of characters |
| US10102189B2 (en) | 2015-12-21 | 2018-10-16 | Verisign, Inc. | Construction of a phonetic representation of a generated string of characters |
| US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
| US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
| US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
| US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
| US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
| US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
| DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
| US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
| US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
| US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
| US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
| US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
| DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
| DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
| DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
| DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
| US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
| US10586527B2 (en) * | 2016-10-25 | 2020-03-10 | Third Pillar, Llc | Text-to-speech process capable of interspersing recorded words and phrases |
| US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
| US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
| US10872598B2 (en) | 2017-02-24 | 2020-12-22 | Baidu Usa Llc | Systems and methods for real-time neural text-to-speech |
| DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
| DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
| DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
| DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
| DK201770429A1 (en) | 2017-05-12 | 2018-12-14 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
| DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
| DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
| DK179549B1 (en) | 2017-05-16 | 2019-02-12 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
| US10896669B2 (en) | 2017-05-19 | 2021-01-19 | Baidu Usa Llc | Systems and methods for multi-speaker neural text-to-speech |
| US11017761B2 (en) | 2017-10-19 | 2021-05-25 | Baidu Usa Llc | Parallel neural text-to-speech |
| US10872596B2 (en) | 2017-10-19 | 2020-12-22 | Baidu Usa Llc | Systems and methods for parallel wave generation in end-to-end text-to-speech |
| US10796686B2 (en) | 2017-10-19 | 2020-10-06 | Baidu Usa Llc | Systems and methods for neural text-to-speech using convolutional sequence learning |
| EP3662467B1 (en) * | 2018-10-11 | 2021-07-07 | Google LLC | Speech generation using crosslingual phoneme mapping |
| CN110211562B (zh) * | 2019-06-05 | 2022-03-29 | 达闼机器人有限公司 | 一种语音合成的方法、电子设备及可读存储介质 |
| EP4061219B1 (en) | 2019-11-21 | 2026-01-28 | Cochlear Limited | Scoring speech audiometry |
| CN111179904B (zh) * | 2019-12-31 | 2022-12-09 | 出门问问创新科技有限公司 | 混合文语转换方法及装置、终端和计算机可读存储介质 |
| CN111292720B (zh) * | 2020-02-07 | 2024-01-23 | 北京字节跳动网络技术有限公司 | 语音合成方法、装置、计算机可读介质及电子设备 |
| CN112927676A (zh) * | 2021-02-07 | 2021-06-08 | 北京有竹居网络技术有限公司 | 一种语音信息的获取方法、装置、设备和存储介质 |
| US11699430B2 (en) * | 2021-04-30 | 2023-07-11 | International Business Machines Corporation | Using speech to text data in training text to speech models |
Family Cites Families (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR100240637B1 (ko) * | 1997-05-08 | 2000-01-15 | 정선종 | 다중매체와의 연동을 위한 텍스트/음성변환 구현방법 및 그 장치 |
| KR100238189B1 (ko) * | 1997-10-16 | 2000-01-15 | 윤종용 | 다중 언어 tts장치 및 다중 언어 tts 처리 방법 |
| US6510410B1 (en) * | 2000-07-28 | 2003-01-21 | International Business Machines Corporation | Method and apparatus for recognizing tone languages using pitch information |
| CN1156819C (zh) * | 2001-04-06 | 2004-07-07 | 国际商业机器公司 | 由文本生成个性化语音的方法 |
| US7043431B2 (en) * | 2001-08-31 | 2006-05-09 | Nokia Corporation | Multilingual speech recognition system using text derived recognition models |
| US20050144003A1 (en) * | 2003-12-08 | 2005-06-30 | Nokia Corporation | Multi-lingual speech synthesis |
| WO2005059895A1 (en) | 2003-12-16 | 2005-06-30 | Loquendo S.P.A. | Text-to-speech method and system, computer program product therefor |
-
2003
- 2003-12-16 WO PCT/EP2003/014314 patent/WO2005059895A1/en not_active Ceased
- 2003-12-16 CA CA2545873A patent/CA2545873C/en not_active Expired - Fee Related
- 2003-12-16 ES ES03799483T patent/ES2312851T3/es not_active Expired - Lifetime
- 2003-12-16 US US10/582,849 patent/US8121841B2/en active Active
- 2003-12-16 CN CN200380110846.0A patent/CN1879147B/zh not_active Expired - Fee Related
- 2003-12-16 AU AU2003299312A patent/AU2003299312A1/en not_active Abandoned
- 2003-12-16 EP EP03799483A patent/EP1721311B1/en not_active Expired - Lifetime
- 2003-12-16 DE DE60322985T patent/DE60322985D1/de not_active Expired - Lifetime
- 2003-12-16 AT AT03799483T patent/ATE404967T1/de not_active IP Right Cessation
-
2012
- 2012-01-10 US US13/347,353 patent/US8321224B2/en not_active Expired - Fee Related
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US11848022B2 (en) | 2006-07-08 | 2023-12-19 | Staton Techiya Llc | Personal audio assistant device and method |
Also Published As
| Publication number | Publication date |
|---|---|
| DE60322985D1 (de) | 2008-09-25 |
| US20070118377A1 (en) | 2007-05-24 |
| ATE404967T1 (de) | 2008-08-15 |
| US20120109630A1 (en) | 2012-05-03 |
| WO2005059895A1 (en) | 2005-06-30 |
| AU2003299312A1 (en) | 2005-07-05 |
| EP1721311B1 (en) | 2008-08-13 |
| CN1879147A (zh) | 2006-12-13 |
| EP1721311A1 (en) | 2006-11-15 |
| CA2545873A1 (en) | 2005-06-30 |
| CA2545873C (en) | 2012-07-24 |
| CN1879147B (zh) | 2010-05-26 |
| US8321224B2 (en) | 2012-11-27 |
| US8121841B2 (en) | 2012-02-21 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| ES2312851T3 (es) | Procedimiento y sistema texto a voz y el programa informatico asociado. | |
| JP7142333B2 (ja) | 多言語テキスト音声合成方法 | |
| KR100403293B1 (ko) | 음성합성방법, 음성합성장치 및 음성합성프로그램을기록한 컴퓨터판독 가능한 매체 | |
| CN102543069B (zh) | 多语言的文字转语音合成系统与方法 | |
| US7107216B2 (en) | Grapheme-phoneme conversion of a word which is not contained as a whole in a pronunciation lexicon | |
| ES2261355T3 (es) | Correspondencia de plantillas prosodicas para sistemas de conversion de texto en habla. | |
| Olaszy et al. | Profivox—a Hungarian text-to-speech system for telecommunications applications | |
| US20090150157A1 (en) | Speech processing apparatus and program | |
| US8155963B2 (en) | Autonomous system and method for creating readable scripts for concatenative text-to-speech synthesis (TTS) corpora | |
| Liang et al. | An hmm-based bilingual (mandarin-english) tts | |
| JPH10510065A (ja) | 多言語テキスト音声合成のための二連音を生成及び利用する方法及びデバイス | |
| Dijkstra et al. | Frisian TTS, an example of bootstrapping TTS for minority languages | |
| Williams | Text-to-speech synthesis for Welsh and Welsh English. | |
| Langarani et al. | Data-driven foot-based intonation generator for text-to-speech synthesis. | |
| GB2480649A (en) | Non-native language spelling correction | |
| IMRAN | ADMAS UNIVERSITY SCHOOL OF POST GRADUATE STUDIES DEPARTMENT OF COMPUTER SCIENCE | |
| Rustamov et al. | On an approach to computer synthesis of Azerbaijan speech | |
| Ahmad et al. | Towards designing a high intelligibility rule based standard malay text-to-speech synthesis system | |
| Al-Saiyd et al. | Unit selection model in Arabic speech synthesis | |
| Louw | A new definition of Xhosa grapheme-to-phoneme rules for automatic transcription | |
| Karn | Aspects of phonetics and phonology in a text-to-speech system for Spanish | |
| King | Final report for Verbmobil Teilprojekt 4.4 | |
| JP5012444B2 (ja) | 韻律生成装置、韻律生成方法、および、韻律生成プログラム | |
| Menting | Towards a keyboard-to-speech system | |
| Tian et al. | Modular design for Mandarin text-to-speech synthesis |