ES2364401A1 - Método y sistema para la estimación de parámetros fisiológicos de la fonación. - Google Patents
Método y sistema para la estimación de parámetros fisiológicos de la fonación. Download PDFInfo
- Publication number
- ES2364401A1 ES2364401A1 ES201131069A ES201131069A ES2364401A1 ES 2364401 A1 ES2364401 A1 ES 2364401A1 ES 201131069 A ES201131069 A ES 201131069A ES 201131069 A ES201131069 A ES 201131069A ES 2364401 A1 ES2364401 A1 ES 2364401A1
- Authority
- ES
- Spain
- Prior art keywords
- wave
- parameters
- glottic
- glottal
- voice signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/66—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
La invención consiste en un método y sistema de cómputo para el registro y análisis de la voz, que permite calcular una serie de parámetros de la fonación. Estos transportan información relevante sobre influencias causadas por trastornos orgánicos (que afectan a la fisiología de la laringe) o neurológicos (que afectan a los centros cerebrales del habla). Asimismo se consideran parte esencial de la invención los procedimientos clasificatorios que permiten obtener estimaciones de la disfunción presente y de asignación de personalidad. La utilidad de la invención se enmarca, en la posibilidad de aplicar la estimación de disfunción en los centros médicos de asistencia primaria para el cribado de pacientes a los centros de atención especializada, simplificando los protocolos de exploración, ahorrando costes, y reduciendo listas de espera. También es aplicable esta metodología en la detección de la personalidad del locutor por la voz, permitiendo garantizar el acceso a instalaciones o servicios.
Description
Método y sistema para la estimación de
parámetros fisiológicos de la fonación.
La invención se enmarca en el sector de las
tecnologías de la información y las comunicaciones con aplicación en
biomedicina y la seguridad, y más concretamente en el campo de la
detección y la gradación de la patología orgánica de la voz por
medio de la clasificación de parámetros obtenidos de la onda glótica
de la voz, y en la gestión de acceso seguro por voz.
La medida de la calidad de voz como
procedimiento para el diagnóstico y gradación de la patología
orgánica de la voz ha conocido un auge importante en la última
década. Fruto del mismo son un conjunto de aplicaciones informáticas
que a partir de la voz generan índices de medida de la calidad de la
misma como variantes del jitter (perturbación del período de
fonación a lo largo del tiempo), del shimmer (perturbación
temporal de la amplitud de la fonación ciclo a ciclo), de la
relación señal/ruido (entre la parte periódica y la no periódica de
un segmento de voz), del índice glottal/noise
(proporción entre la energía de la onda glótica respecto al ruido
residual presente en la voz), y de parámetros temporales que
reflejan los procesos de apertura y cierre de los pliegues vocales
durante una fonación, como son los ciclos de recuperación,
cierre, apertura y cerramiento. Los procesos de
estimación paramétrica se suelen llevar a cabo sobre la voz medida
en el punto de captura de la misma, generalmente un micrófono de
propósito general, para ser digitalizada y posteriormente procesada.
Los procesos habituales son la extracción en el dominio espectral o
temporal. Entre los primeros se determina su densidad espectral de
potencia, y a partir de la misma los parámetros
mel-cepstrum, sus primeras y segundas diferencias.
También se miden por procedimientos relacionados la relación de
energía armónico/ruido. La parametrización temporal parte de la
reconstrucción de la fuente glótica, sobre la que se mide la
duración del ciclo de fonación (duración en tiempo entre dos cierres
consecutivos de los pliegues vocales), a partir de la cual se
derivan los instantes de recuperación, apertura y cierre, y en base
a los mismos se determinan las relaciones
glottal/noise y las pendientes del pulso glótico.
La metodología básica que soporta la invención
es la estimación precisa de la onda glótica, entendida ésta como el
correlato de presión sonora que se desarrolla en la glotis durante
la fonación. Los trabajos en este terreno se inician hacia principio
de los años noventa, con las contribuciones de Paavo Alku y sus
colegas sobre la inversión de la trama de voz para la reconstrucción
del pulso glótico (Alku, P., "Glottal wave analysis with pitch
synchronous iterative adaptive inverse filtering"), Speech
Communication, vol. 11, 1992, pp. 109-118. Por lo
que respecta a la estimación combinada de la onda glótica y el
tracto vocal se pueden citar asimismo los trabajos de P. Murphy y su
equipo (Akande, O., and Murphy, P. J. "Estimation of the vocal
tract transfer function for voiced speech with application to
glottal wave analysis", Speech Communication, Vol. 46, 2005, pp.
15-36). Por lo que hace referencia en la solicitud a
la aplicación de la parametrización de la onda glótica en
descripción biométrica del locutor cabe citar los trabajos clásicos
de Reynolds y su grupo (Reynolds, D. A., Quatieri, T. F., Dunn, R.
B., "Speaker Verification Using Adapted Gaussian Mixture
Models", Digital Signal Processing, Vol. 10, 2000, pp.
19-41). Una buena revisión de este tipo de
tecnologías de verificación identitaria por la voz se puede
encontrar en el trabajo clásico de Bimbot et. al. (Bimbot,
F., Bonastre, J. F., Fredouille, C., Gravier, G., Magrin, I.,
Meignier, S., Merlin, T., Ortega, J., Petrovska, D., Reynolds, A.,
"A Tutorial on Text-Independent Speaker
Verification", EURASIP J. on App. Sig. Proc., Vol. 4, 2004, pp.
430-451).
En el ámbito de la detección de la disfonía
existen soluciones basadas en el análisis no diferenciado del habla,
como son los sistemas:
- \bullet
- CSL (Computerized Speech Lab), MDVP (MultiDimensional Voice Program) y APM (Ambulatory Phonation Monitor) de Kay Elemetrics (KayPENTAX), URL: http://www.kayelemetrics.com (20.4.2011)
- \bullet
- MEDIVOZ y WPCVox de TGH ENDOSCOPIA, URL: http://www.tghendoscopia.com/ (20.4.2011)
- \bullet
- Dr. Speech, URL: http://www.drspeech.com/ (20.4.2011)
- \bullet
- SESANE (Software Environment for Speech ANalysis and Evaluation) de SQLab, URL: http://www.sqlab.fr/ sesaneUK.htm (20.4.2011)
- \bullet
- LingWaves de WEVOSYS, URL: http://www.wevosys.com/ (20.4.2011)
- \bullet
- Speech Studio, de Laryngograph, URL: http://www.laryngograph.com/ (20.4.2011)
- \bullet
- WaveView Software, de Glottal Enterprises, URL: http://www.glottal.com/
- \bullet
- Otras aplicaciones remotamente relacionadas con el procesado de la voz, ya que han sido desarrolladas para el tratamiento del habla son Wavesurfer (URL: http://www.speech.kth.se/wavesurfer/), y Praat (URL: www.praat. org).
\newpage
Estas soluciones abordan el estudio de la voz
por medio de análisis acústicos clásicos que tecnológicamente
suponen un estado del arte anterior al propuesto en la presente
solicitud. La tecnología que se pretende patentar contempla la voz
como resultado de dos procesos: producción de la excitación laríngea
u onda glótica en los pliegues vocales, y filtrado articulatorio por
el tracto vocal, que es el recinto acústico formado por las
cavidades faríngea, nasal y oral. El segundo de los procesos es muy
variable incluso para un mismo locutor, ya que está influido por el
mensaje, y es más fácilmente impostable. El primero de los procesos,
la producción, es menos variable para un mismo locutor, difícilmente
impostable, y arrastra información del estado neurológico, emocional
y fisiológico del aparato productor. Estos rasgos dotan de gran
ventaja a la propuesta de la solicitud en el ámbito biométrico en
general, y en particular en los ámbitos clínico y forense. Para ello
se utilizan procedimientos de tratamiento de señal y reconocimiento
de patrones que son la base de la solicitud que se propone.
En el ámbito de la detección de la patología
neuromotora del habla se tiene conocimiento de un sistema Kiosk,
para detección precoz del mal de Alzheimer, si bien tecnológicamente
no es un producto avanzado, ya que solo se utiliza para registro,
sin introducir análisis acústico.
En el ámbito de la identificación y verificación
del locutor y en la asignación de personalidad existen los
sistemas:
- \bullet
- VocalPassword y similares, de Persay, URL: http://www.persay.com/ (20.4.2011)
- \bullet
- Verifier, de Authentify, URL: http://www.authentify.com/ (20.4.2011)
- \bullet
- ASIS, KIVOX, BS y BatVox, de Agnitio, URL: http://www.agnitio.es/ (20.4.2011)
- \bullet
- SecuriVox de SpeechSentinel, URL: http://www.speechsentinel.co.uk/ (20.4.2011)
- \bullet
- BioVox de DTEC, URL: http://www.dtec-bio.es/ (20.4.2011)
La característica diferencial de la solución
propuesta respecto a todos estos sistemas se basa en el uso de
segmentos del habla que son exclusivamente fonados, es decir, que
cursan con producción de voz, en la reconstrucción de un correlato
de fonación que está íntimamente ligado a la biomecánica de la
fonación, y en la parametrización de dicho correlato en los ámbitos
biomecánico y biométrico mediante la reconstrucción del sistema
productor más aproximado al modelo laríngeo capaz de generar dicho
correlato. Este proceso de aproximación al modelado del sistema
fonador es más introspectivo que cualquier otro procedimiento de
análisis existente, porque modela las estructuras biomecánicas
responsables últimas de la producción de la voz que son los pliegues
o cuerdas vocales. En la revisión del estado del arte, y en las
presentaciones de tecnologías del habla a las que se ha asistido en
el ámbito nacional e internacional, así como en la revisión de
publicaciones especializadas y bases de datos de patentes no se ha
encontrado ninguna referencia que siga la misma orientación que la
propuesta. Otra de las ventajas competitivas de la presente
propuesta es que se puede personalizar fácilmente para ofrecer
diferentes soluciones, desde el profesional autónomo clínico o
forense, a los servicios de asistencia primaria o especializada, a
los cuerpos y fuerzas de seguridad, al ámbito de la seguridad
privada, al acceso seguro a instalaciones físicas y servicios
informáticos, a la gestión de Customer Service Optimization,
etc.
Por lo que hace referencia a patentes que traten
temas afines, tras la consulta de las bases de datos
correspondientes se pueden citar las siguientes, y su relación con
la solicitud:
\bullet European Patent Application EP 2 124
223 A1:
METHOD AND SYSTEM FOR DIAGNOSING PATHOLOGICAL
PHENOMENON USING A VOICE SIGNAL
El objetivo de la patente referida pretende ser
la detección de patologías de tipo psicoacústico o de desbalance
bioquímico que puedan ser establecidas mediante el análisis del
habla del paciente, como entre las primeras la dislexia, desorden de
déficit de atención, desorden de déficit de atención por
hiperactividad, autismo, Parkinson, Alzheimer, déficit de percepción
sensorial, problemas de escucha, depresión, control motor y
letargia, y entre las segundas la condición cardiopulmonar, la
diabetes juvenil, la deficiencia de dopamina y serotonina, el exceso
de norepinefrina, testosterona, serotonina y acetilcolina o su
regulación, las patologías de zona sacra y genital, y los problemas
de sistema inmunológico. En cuanto a materiales, la citada patente
propugna el uso de la voz (voice) o del habla (speech) sin hacer
distinción entre ambos conceptos, si bien se desprende que se
refiere al habla del paciente cuando dice "wherein the speech has
a finite duration and each time period separating the respective
plurality of sample intensity values is essentially evenly
distributed within the duration of the speech" (claim 12, col.
13, 1. 21-26). En cuanto a la metodología, de lo
manifestado en la descripción técnica se desprende que se propone el
análisis espectral de la señal de habla del paciente cuando dice
"For the purposes of describing and claiming the present
invention, the term "crater feature" is intended to refer to a
shape (on a graph of frequency vs. intensity) which manifests a
sharp drop at a first frequency continued by a relatively low level
along approximately 50 Hz or more and then a relatively steep rise
at a second frequency". (FIELD OF THE INVENTION, col. 1, 1.
18-24). No se muestra en esta patente un proceso de
clasificación de patrones o de modelado de una base de datos de
sujetos normales y/o patológicos que haga referencia a la detección
de cada patología, por lo que se asume que dicho proceso de
detección se basa en el marcado de unos rasgos, sin que exista un
mecanismo de medición y validación del procedimiento. La propuesta
en la presente solicitud tiene como ventajas frente a la patente
referida el contemplar la detección de la patología orgánica del
aparato fonador incluyendo alteraciones de los pliegues vocales,
como pólipos, nódulos, edemas, carcinomas de pliegue, parálisis de
pliegue, etc. y de perturbaciones producidas por deterioro de los
centros superiores o neuromotores que afectan exclusivamente a la
laringe. Además la propuesta de la presente solicitud propugna el
uso de la voz como marca biométrica para acceso seguro y cotejo
forense. Todos estos objetivos son radicalmente diferenciadores de
los reclamados en la patente referida, añadiendo valor en su
capacidad de detección, su robustez y su precisión. En cuanto a
materiales, la solicitud propugna la utilización de los correlatos
de vibración de los pliegues vocales, como la excitación glótica, la
onda mucosa o el residual glótico, que deben ser extraídos por
filtrado inverso de los segmentos fonados de la voz, y
preferentemente de vocales sostenidas. En cuanto a la metodología
utilizada en la presente solicitud, a partir de la onda glótica
obtenida por filtrado inverso de los segmentos fonados (inversión de
la señal hablada) se calculan parámetros cepstrales, singularidades
de la densidad espectral de potencia, y parámetros biomecánicos que
se extraen para cada ciclo de fonación en segmentos de unos 200 msg.
de fonación, lo cual supone muestras tomadas a razón de unas
100-200 por segundo. También se utilizan parámetros
temporales en la presente solicitud obtenidos para cada ciclo de
fonación mediante transformadas wavelet. En la solicitud propuesta
se plantean diferentes modelos de clasificación de patrones, de
normado de pacientes y de análisis y validación estadística de
resultados. También se muestran procedimientos para la gradación de
la disfonía, del acceso seguro y del cotejo forense. La nueva
solución propuesta en la presente solicitud mejora lo expuesto en la
patente referida en la obtención de onda glótica precisos en lugar
de voz completa, en la estimación de un conjunto de parámetros con
alta semántica funcional en disfonía, y en la robustez y precisión
de las estimaciones frente a la variabilidad
intra-locutor, mejorando la capacidad de separación
inter-locutor. Estas innovaciones hacen que las
diferencias entre lo manifestado en dicha patente y la presente
solicitud sean sustanciales en lo que hace referencia a objetivos,
materiales y metodología utilizados, siendo la nueva solución
propuesta claramente más ventajosa en cuanto a ofrecer más
parámetros con mejor semántica, menor variabilidad
intra-locutor, y mayor precisión y robustez.
\vskip1.000000\baselineskip
\bullet US Patent Number US005400434A
VOICE SOURCE FOR SYNTHETIC SPEECH SYSTEM
El objetivo de la patente referida pretende ser
el uso de la señal de excitación glótica previamente extraída a
partir de un conjunto de locutores de referencia, para ser
reproducida en sistemas de síntesis texto-voz. La
metodología utiliza filtrado inverso para generar la onda glótica,
sin especificar el tipo de filtrado inverso a utilizar. El material
utilizado es habla registrada a partir de una base de locutores, de
la cual se extrae el pulso glótico. La presente solicitud utiliza un
tipo de filtrado inverso basado en celosías
modelo-espejo, que son una innovación en sí mismas.
Estos filtros celosía son estándares en la estimación conjunta de
procesos. La nueva solución propuesta en la presente solicitud
mejora lo expuesto en la patente referida en la obtención de onda
glótica en lugar de voz completa, en la estimación de un conjunto de
parámetros con alta semántica funcional en disfonía, y en la
robustez y precisión de las estimaciones frente a la variabilidad
intra-locutor, mejorando la capacidad de separación
inter-locutor. Estas innovaciones hacen que las
diferencias entre lo manifestado en dicha patente y la presente
solicitud sean sustanciales en lo que hace referencia a objetivos,
materiales y metodología utilizados, siendo la nueva solución
propuesta claramente más ventajosa en cuanto a ofrecer más
parámetros con mejor semántica, menor variabilidad
intra-locutor, y mayor precisión y
robustez.
robustez.
\vskip1.000000\baselineskip
\bullet US Patent Number US005577160A
SPEECH ANALYSIS APPARATUS FOR EXTRACTING GLOTTAL
SOURCE PARAMETERS AND FORMANT PARAMETERS
El objetivo de la patente referida pretende ser
la reconstrucción de la fuente glótica junto con la función de
transferencia del tracto vocal, combinando algoritmos de análisis
basados en predicción lineal. Para ello utilizan conocimiento de
dominio público, fundamentalmente publicado por P. Alku y otros
(OTHER PUBLICATIONS). La patente se basa en la integración de
diferentes métodos de análisis espectral de dominio público,
siguiendo estructuras de conexión de dichos métodos, que permiten a
los autores producir estimaciones de determinados parámetros de la
fuente glótica (SOURCE PARAMETER EXTRACTING MEANS: Fundamental
Frequency F0, Amplitude of waveform B, Open Quotient OQ, SK, C, D),
así como del tracto vocal (FIRST TO SIXTH FORMANT:
F1-6). Los parámetros así extraídos se combinan en
un modelo espectral de la derivada del flujo glótico, y en un modelo
del tracto vocal, que juntos definen un modelo completo del habla
(fonada) que se desee (Fig. 27 y Fig. 28 del documento referido). La
metodología que se utiliza es el filtrado LPC (Linear Predictive
Coding) clásico mediante predictores transversales, la estimación de
los polos y ceros de los mismos, y su uso en la eliminación de la
influencia del tracto vocal en pasos escalonados siguiendo el modelo
AIF (Adaptive Inverse Filtering) de P. Alku (de dominio público)
para generar la fuente glótica, y mediante Transformada Rápida de
Fourier (de dominio público) generar dos modelos en el dominio de la
frecuencia, de fuente glótica y de transferencia de tracto vocal,
que combinados e invertidos al dominio del tiempo den una
descripción del habla (fonada) analizada y sintetizada. El
procedimiento consiste en controlar cuidadosamente el número de
formantes detectados en el modelado de la fuente glótica y del
tracto vocal para evitar la intrusión de componentes del tracto
vocal en la fuente glótica durante el modelado LPC de ésta. Se
pretende conseguir estimaciones más precisas de ambas componentes
respecto al estado del arte. Para ello se propone utilizar un
sistema denominado AbS (Analysis by Synthesis) para modelar la
fuente glótica, en lugar del clásico LPC, que se reserva para el
modelado del tracto vocal. El proceso de modelado de la fuente
glótica por AbS pasa por eliminar el primer formante de la voz según
una pluralidad de candidatos, generando una pluralidad de fuentes
glóticas al eliminar los diferentes candidatos a primer formante.
Estas fuentes se combinan con la estimación del tracto vocal para
sintetizar voz, que se compara con la original y permite seleccionar
el candidato más adecuado. La originalidad de esta metodología está
en la detección y eliminación selectiva de los formantes del tracto
vocal (el primero, y los superiores de forma diferenciada) para
sintetizar un prototipo de fuente glótica que mejor se ajuste al
perfil reducido de la voz por eliminación selectiva de formantes.
Para ello se utilizan las estimaciones de los parámetros F0, OQ, SK,
C y D, así como los formantes F1-6. Por su parte, la
presente solicitud propugna la utilización del modelo AIF con la
originalidad de realizar las estimaciones cruzadas de onda glótica y
tracto vocal mediante filtros LPC implementados mediante celosías
modelo-espejo según se muestra en las Figuras 2 y 5,
controlando de forma empírica los órdenes (número de etapas) de
dichas celosías. De esta forma, la solución propuesta en la presente
solicitud es respetuosa con los patrones biométricos y biomecánicos
que aparecen en la fuente glótica, y que no son respetados por la
patente citada, por lo que mejoran sustancialmente la capacidad de
caracterización de aquella. La nueva solución propuesta en la
presente solicitud mejora lo expuesto en la patente referida en la
obtención de onda glótica precisos en lugar de voz completa, en la
estimación de un conjunto de parámetros con alta semántica funcional
en disfonía, y en la robustez y precisión de las estimaciones frente
a la variabilidad intra-locutor, mejorando la
capacidad de separación inter-locutor. Estas
innovaciones hacen que las diferencias entre lo manifestado en dicha
patente y la presente solicitud sean sustanciales en lo que hace
referencia a objetivos, materiales y metodología utilizados, siendo
la nueva solución propuesta claramente más ventajosa en cuanto a
ofrecer más parámetros con mejor semántica, menor variabilidad
intra-locutor, y mayor precisión y robustez.
\vskip1.000000\baselineskip
\bullet US Patent Number US007398213B1
METHOD AND SYSTEM FOR DIAGNOSING PATHOLOGICAL
PHENOMENON USING A VOICE SIGNAL
Se trata de la extensión como patente en Estados
Unidos de la ya comentada patente europea European Patent
Application EP 2 124 223 A1, por lo que son de aplicación a ésta las
mismas consideraciones que a aquella, sin más añadidos.
\vskip1.000000\baselineskip
\bullet US Patent Number US 20050171774A1
FEATURES AND TECHNIQUES FOR SPEAKER
AUTHENTICATION
El objetivo de la patente referida parece ser la
utilización de parámetros extraídos de la fuente glótica, de los
formantes, de las características temporales y de la frecuencia
fundamental del habla como elementos para el reconocimiento de
locutores. En cuanto a los parámetros de la fuente glótica, se citan
los siguientes: la amplitud de pico, la amplitud RMS (valor eficaz),
la tasa de cruces por cero, la función de autocorrelación, la
longitud del arco, los coeficientes de Fourier, la trayectoria en el
plano complejo de la Transformada Discreta de Fourier, la tasa de
caída con la frecuencia (spectral tilt), las relaciones de amplitud
y fase de los primeros armónicos, el grado de aire en voz (ruido de
aspiración, coeficiente OQ (open quotient) alto, la componente de
ruido, sus cruces por cero y energía, el resultado de su análisis de
Fourier, el jitter y shimmer, la relación entre diferentes
coeficientes de correlación de dicha señal respecto al primero, la
información de fase entre fuentes glóticas distintas normalizadas.
Los parámetros de formantes son los nueve primeros y sus respectivos
anchos de banda. También se añade el perfil del tracto vocal y la
nasalidad. En cuanto a la metodología para establecer las
comparaciones se presenta una arquitectura con un sistema de
extracción próximo al locutor de donde se toman los correlatos
acústicos para el análisis, que se transmiten por una red de
comunicaciones a un servidor remoto donde se procede a su
verificación contra una base de locutores previamente elaborada,
devolviéndose la decisión de autentificación al sistema próximo
(Figura 1). La descripción de los métodos a utilizar no es muy
precisa. Tampoco se especifica el procedimiento de autentificación
de locutor que se comenta. Los puntos de relación con la presente
solicitud se centran en la utilización de parámetros derivados de la
onda glótica, si bien son totalmente distintos en su concepción
(primeros armónicos, jitter y shimmer, sin especificar cuáles de las
diferentes parametrizaciones existentes en la literatura de dominio
público se proponen), trayectorias en el plano z, cruces por cero,
todos ellos muy alejados de la presente solicitud (basada en
parámetros de distorsión, cepstrales, singularidades de la densidad
espectral de potencia de la onda glótica, parámetros biomecánicos,
parámetros temporales de eficiencia glótica, que poseen una
semántica claramente superior a los utilizados en la patente
comentada). La nueva solución propuesta en la presente solicitud
mejora lo expuesto en la patente referida en la obtención de onda
glótica precisos en lugar de voz completa, en la estimación de un
conjunto de parámetros con alta semántica funcional en disfonía, y
en la robustez y precisión de las estimaciones frente a la
variabilidad intra-locutor, mejorando la capacidad
de separación inter-locutor. Estas innovaciones
hacen que las diferencias entre lo manifestado en dicha patente y la
presente solicitud sean sustanciales en lo que hace referencia a
objetivos, materiales y metodología utilizados, siendo la nueva
solución propuesta claramente más ventajosa en cuanto a ofrecer más
parámetros con mejor semántica, menor variabilidad
intra-locutor, y mayor precisión y robustez.
\newpage
\bullet International Publication Number WO
2010/031437 A1
METHOD AND SYSTEM OF VOICE CONVERSION
El objetivo de la patente referida es la
conversión de la voz de un locutor (objeto) en la voz de otro
locutor (objetivo), mediante el modelado de la fuente glótica y el
tracto vocal en cada ciclo glótico, incluyendo la intensidad de la
excitación, un conjunto de parámetros de la fuente glótica y los
coeficientes del filtro todo-polo que modelan el
tracto vocal. La metodología utilizada es la extracción de la fuente
glótica y el tracto vocal por medio del modelo de estimación
conjunta de Lu & Smith para obtener un conjunto de parámetros de
onda glótica y de modelo de tracto vocal, ajustando la fuente
glótica obtenida por filtrado inverso contra un modelo
Rosenberg-Klatt por medio de optimización no lineal
restringida. Por este procedimiento se determina un vector de
características de la onda glótica compuesto por la intensidad de la
excitación (Ee), los parámetros temporales de máximo flujo (Tp), de
fase abierta (Te), de ajuste de retorno (Ta) y de fin de
recuperación (Tc), junto con la energía de ruido de aspiración
(ANE). Se genera una base de datos con diferentes locutores
estimando estos parámetros. A continuación se presentan los
resultados de la síntesis cruzada de voz mediante estimaciones
objetivas y subjetivas. La relación con la presente solicitud se
centra en los procedimientos de extracción de onda glótica, si bien
la estimación conjunta de onda glótica y tracto vocal se lleva a
cabo en ambos casos por procedimientos bien distintos: la estimación
conjunta por Lu&Smith utilizando optimización no lineal de
parámetros en el caso de la patente, y por celosías adaptativas
modelo-espejo en el caso de la presente solicitud.
La nueva solución propuesta en la presente solicitud mejora lo
expuesto en la patente referida en la obtención de onda glótica
precisos en lugar de voz completa, en la estimación de un conjunto
de parámetros con alta semántica funcional en disfonía, y en la
robustez y precisión de las estimaciones frente a la variabilidad
intra-locutor, mejorando la capacidad de separación
inter-locutor. Estas innovaciones hacen que las
diferencias entre lo manifestado en dicha patente y la presente
solicitud sean sustanciales en lo que hace referencia a objetivos,
materiales y metodología utilizados, siendo la nueva solución
propuesta claramente más ventajosa en cuanto a ofrecer más
parámetros con mejor semántica, menor variabilidad
intra-locutor, y mayor precisión y robustez.
\vskip1.000000\baselineskip
\bullet US Patent Number US006195632B1
EXTRACTING FORMANT-BASED
SOURCE-FILTER DATA FOR CODING AND SYNTHESIS
EMPLOYING COST FUNCTION AND INVERSE FILTERING
El objetivo de la patente referida es la
estimación de los formantes de la voz mediante la minimización de
una función de coste definida sobre el residual glótico que se
denomina "arc-length" (longitud de arco). La
metodología opera como sigue: la señal de voz se somete a filtrado
inverso para evaluar el residual glótico, sobre el que se evalúa una
función de coste. Sobre ella se lleva a cabo un proceso de
optimización que permite detectar los parámetros de ajuste del
filtro inverso, y reconstruir la voz sintetizada para comprobar su
calidad. Los parámetros a ajustar son los polos del filtro inverso y
sus anchos de banda, mientras que la medida de calidad se basa en la
fijación de una serie de puntos de referencia en el correlato
glótico, y en el cálculo de la tensión del arco resultante entre
cada par de puntos, que se acumula como una medida cuadrática. Los
parámetros del filtro inverso se modifican adecuadamente para que la
medida de tensión de arco resultante se vaya minimizando
iterativamente. De esta forma se consigue definir un correlato
glótico y un filtro inverso "óptimos" en el sentido dicho. La
relación con la presente solicitud se centra en los procedimientos
de extracción de onda glótica, si bien la estimación de la onda
glótica y tracto vocal se lleva a cabo en ambos casos por
procedimientos bien distintos: la estimación de la fuente y el
filtro por medio de la optimización de la función de "tensión de
arco" en el caso de la patente que se referencia, y por celosías
adaptativas modelo-espejo ilustradas en las Figuras
2 y 5 en el caso de la presente solicitud. Esta nueva solución
propuesta en la presente solicitud mejora lo expuesto en la patente
referida en la obtención de onda glótica precisos en lugar de voz
completa, en la estimación de un conjunto de parámetros con alta
semántica funcional en disfonía, y en la robustez y precisión de las
estimaciones frente a la variabilidad intra-locutor,
mejorando la capacidad de separación inter-locutor.
Estas innovaciones hacen que las diferencias entre lo manifestado en
dicha patente y la presente solicitud sean sustanciales en lo que
hace referencia a objetivos, materiales y metodología utilizados,
siendo la nueva solución propuesta claramente más ventajosa en
cuanto a ofrecer más parámetros con mejor semántica, menor
variabilidad intra-locutor, y mayor precisión y
robustez.
Las limitaciones identificadas en el estado
actual de la técnica en el área en que se pretende actuar son las
siguientes:
- \bullet
- La influencia del tracto vocal en la fonación es fuertemente enmascaradora de la actividad dinámica de los pliegues vocales, y dificulta enormemente la estimación del estado fisiológico de la misma a partir del registro de la voz.
- \bullet
- Las estimaciones del estado fisiológico de los pliegues vocales a partir del análisis acústico de la voz se centran en el uso de parámetros de distorsión que no tienen una semántica bien definida y unívoca respecto al problema que modelan.
- \bullet
- La personalización del locutor a partir del habla incorpora mucha información articulatoria, dependiente del texto, que genera una alta variabilidad intra-locutor dificultando las tareas de la identificación robusta.
\vskip1.000000\baselineskip
La presente invención resuelve los problemas y
las limitaciones anteriores mediante las siguientes actuaciones:
- \bullet
- Se utilizan parámetros derivados de la onda glótica para determinar la actividad dinámica de los pliegues vocales, mediante la reconstrucción de dicha señal por filtrado inverso de la señal de voz. Los nuevos parámetros son estimaciones de la envolvente del espectro en frecuencia de la onda glótica así reconstruida.
- \bullet
- Se realizan estimaciones de los parámetros biomecánicos de los pliegues vocales mediante la adaptación de un modelo biomecánico resonante que reconstruya el comportamiento en frecuencia en una banda dada de la envolvente espectral de la onda glótica. Los parámetros biomecánicos son estimados mediante los valores del modelo biomecánico citado mediante inversión del sistema dinámico de los mismos. Estos nuevos parámetros determinan comportamientos normales y anormales de los pliegues vocales en fonación de forma mucho más directa.
- \bullet
- Se elimina la influencia del tracto vocal en la fonación mediante filtrado inverso, lo que reduce la variabilidad intra-locutor producida por la articulatoria. Ello mejora las tasas de discriminación inter-locutor al separar mejor las clases de locutores modelados.
Para ello se propone un sistema de captura de la
señal de voz y un conjunto de métodos algorítmicos diseñados para la
extracción de parámetros relevantes a partir de la onda glótica, y
para su clasificación de acuerdo con una población de control
normal, que permiten la determinación de la presencia de disfonía,
del grado de la misma, y de la identidad del locutor.
Figura 1. Diagrama general del sistema que
describe la invención. Consiste en una toma de sonido
(1-2), seguida de una codificación digital (3) bajo
control de un circuito lógico programable (4) que realiza las
funciones de control (5), almacenamiento (6), estimación de
parámetros y clasificación de los mismos (7, 8, 9) y presentación
(10) o puesta a disposición de otro sistema (11) para su
interpretación por un experto.
Figura 2. Proceso para la estimación de la onda
glótica por inversión del modelo de producción de la voz. Se elimina
el efecto de radiación (12), se modela el pulso glótico (13), se
elimina su influencia (14), se modela el tracto vocal (16) y se
elimina asimismo su influencia (15) cruzándose las estimaciones con
influencia eliminada (glótica o vocal) para realizar sucesivos
refinamientos de los modelados. Se genera una señal residual glótica
como resultado sin influencia sustancial del tracto vocal.
Figura 3. Proceso de estimación de los
parámetros de referencia que se utilizarán en las realizaciones
preferentes (clínica, de identificación del locutor, y forense).
Mediante dos integraciones sucesivas (17) y (18) se estima la fuente
glótica y el flujo glótico. La fuente glótica se utiliza para
estimar los parámetros temporales del ciclo glótico (19), los
parámetros de distorsión (20), y la onda acústica promedio (21). A
partir de esta señal se calcula la densidad espectral de potencia
(22) del correlato de onda mucosa que permite estimar los parámetros
biométricos de la fonación (23) así como los parámetros biomecánicos
de la cubierta del pliegue vocal (25). A partir de la onda acústica
promedio se pueden calcular los parámetros biomecánicos del cuerpo
del pliegue vocal (24).
Figura 4. Filtro cancelador del efecto de
radiación. Está construido como una celosía de correlación parcial
que es el inicio de una cadena de filtros de modelado y cancelación
cruzada, que se denominan modelo-espejo.
Figura 5. Filtros celosía modelo espejo para
estimación conjunta. Etapa de un filtro de modelado y cancelación
que muestra el flujo a modelar (33-33') y el flujo
modelado (37-37') así como el procedimiento de
estimación (34) y recorrelación cruzada (35, 38) generándose los
flujos que se traspasan a la etapa siguiente
(36-36') y (39-39').
Figura 6. Ejemplo de reconstrucción de la fuente
glótica resultante de (17-18) para voz masculina. La
fuente (onda) glótica está dada por (40) mientras que el flujo
glótico es (41). En (42) pueden verse sucesivos ciclos de la fuente
glótica.
Figura 7. Ejemplo de reconstrucción de la fuente
glótica resultante de (17-18) para voz femenina. La
fuente (onda) glótica está dada por (43) mientras que el flujo
glótico es (44). En (45) pueden verse sucesivos ciclos de la fuente
glótica.
Figura 8. Perfil (envolvente) de la densidad
espectral de potencia de la fuente glótica. Se observa una función
de caída promedio inversamente proporcional a la frecuencia,
salpicada por picos (46) y valles (47) sucesivos que constituyen las
singularidades de dicho perfil, y que debidamente estimados en valor
y posición normalizada dan lugar a los parámetros biométricos de
dicha fuente glótica.
\newpage
Figura 9. Ajuste de la densidad espectral de
potencia de la onda acústica promedio (48) mediante una función de
segundo orden (49) cuyos parámetros de ajuste se convierten en
estimadores de la biomecánica del cuerpo del pliegue vocal.
Figura 10. Ajuste de la densidad espectral de
potencia de la onda mucosa (50) mediante una función de segundo
orden (51) cuyos parámetros de ajuste se convierten en estimadores
de la biomecánica de la cubierta del pliegue vocal.
Figura 11. Ejemplo de realización preferida para
la aplicación del método y sistema propuesto para la detección y
gradación de la disfonía. La señal de voz (55) se captura y almacena
(52, 54, 53), y sobre la misma se extrae la fuente glótica (56). Se
estiman los parámetros biométricos y biomecánicos (57) y se
seleccionan los más relevantes a la aplicación deseada (58). Con
suficiente cantidad de individuos normofónicos se genera un modelo
de locutor de referencia (58) que se utiliza en contraste mediante
parámetros clasificatorios basados en diferentes algoritmos, como
modelos de mezclas de gaussianas (60: GMM) no excluyendo otros
modelos posibles. Se genera un índice de grado disfónico (61) que
puede utilizarse para evaluar el nivel de disfonía (62:
0-1 normal, 1-2 leve,
2-3 moderado, >3 grave) y para decidir (63)
posibles actuaciones consecuentes, como inspección en servicio de
especialidad, etc.
Figura 12. Ejemplo de realización preferida para
la aplicación del método y sistema propuesto para la identificación
y verificación del locutor. La señal de voz (67) se captura y
almacena (64, 66, 65), y sobre la misma se extrae la fuente glótica
(70). Se estiman los parámetros cepstrales (71) a partir del
espectro convencional (68), los cepstrales (72) derivados del
espectro LPC (69) y los biométricos y biomecánicos (73) de la fuente
glótica (70) con los que se compone un supervector (74) que se
utiliza en detección de la secuencia temporal (75) y del grado de
semejanza (76) con respecto a un modelo de locutor previamente
producido (77). Las puntuaciones de similaridad en la identificación
de un locutor contra otros (78) se utilizan para generar unos
índices de identidad y certeza (79) que informan sobre la
personalidad estimada y la confiabilidad de la estimación. Con estas
informaciones se pueden tomar decisiones sobre aceptación, rechazo o
evaluación de personalidad por métodos alternativos (80).
Figura 13. Ejemplo de realización preferida para
la aplicación del método y sistema propuesto para la verificación y
cotejo forense del locutor. La señal de voz (84) se captura y
almacena (81, 83, 82), y sobre la misma se extrae la fuente glótica
(85). Se estiman los parámetros biométricos y biomecánicos (86) y se
seleccionan los más relevantes a la aplicación deseada (87). Con
suficiente cantidad de individuos normofónicos se genera un modelo
universal de locutor (88) que se utiliza en contraste mediante
parámetros clasificatorios basados en diferentes algoritmos, como
modelos de mezclas de gaussianas (89: GMM) no excluyendo otros
posibles. Se genera un índice de verosimilitud (61: LR) que puede
utilizarse para evaluar la evidencia del cotejo (91: <0 rechazo,
0-1 evidencia débil, 1-2 evidencia
fuerte, 2-3 evidencia muy fuerte) y para decidir
(92) posibles actuaciones consecuentes.
A continuación con carácter no limitativo, se
ilustra con referencia a las figuras un modo de realización de la
invención.
Para describir el sistema propuesto se parte del
diagrama de bloques que se muestra en la Figura 1, que ilustra la
plataforma de registro de voz, cómputo de parámetros y presentación
de los mismos en una interfaz de usuario de tipo portable. En la
misma, la señal de voz obtenida desde un micrófono convencional (1)
o desde un teléfono (2) es capturada y codificada a digital (3) y
almacenada en una memoria temporal (6) en un circuito de control
constituido por una FPGA (4: Field-Programmable Gate
Array) que incorpora además la programación adecuada para controlar
la captura de sonido (5) y el resto de los procesos de tratamiento
de señal e identificación de patrones (7: estimador de onda glótica,
8: estimador de los parámetros de referencia, 9: clasificador de
patrones). Los resultados son almacenados asimismo en memoria
temporal (6) desde donde o bien se ofrecen por una pantalla tipo
i-pod al usuario (10) o se ponen a disposición de
otros sistemas informáticos mediante una interfaz USB (11).
Por su parte el método propuesto consiste en una
serie de procesos para la estimación de los parámetros de
clasificación que se hallan programados dentro de la FPGA de la
Figura 1. Estos procesos son los siguientes:
- \bullet
- Proceso para estimación de la onda glótica. Se describe en la Figura 2. Consiste en un filtro inverso (12) que compensa el efecto de radiación desde los labios al micrófono, y de un par de filtros modelo-espejo que modelan el comportamiento de la onda glótica y del tracto vocal y los eliminan sobre la señal de voz. El sistema Filtro Glótico Inverso (13) modela la onda glótica, y su Filtro Espejo (14) elimina la influencia de la misma en la voz, produciendo una voz desglotalizada. El sistema Filtro Inverso del Tracto Vocal (16) modela las resonancias de las cavidades faríngea, vocal y nasal, y su Filtro Espejo (15) elimina las mismas en la señal de voz, produciendo un residual glótico.
- \bullet
- Proceso para la estimación de los parámetros de referencia. Se describe en la Figura 3. El residual glótico producido en el proceso anterior se integra en un Filtro Integrador (17) y produce la Fuente Glótica. La integración de esta señal en un nuevo Filtro Integrador (18) produce el Flujo Glótico. Por su parte la Fuente Glótica se utiliza para la Estimación de sus Parámetros Temporales (19), y de sus Parámetros de Distorsión (20). Adicionalmente sobre ella estima la Onda Acústica Promedio en un Detector de Onda Acústica Promedio (21), que produce asimismo un Correlato de Onda Mucosa. A partir del Correlato de Onda Mucosa se estima la Densidad Espectral de Potencia de su Envolvente en (22), sobre la cual se estiman los Parámetros Biométricos de la Onda Mucosa (23). También a partir del Correlato de Onda Mucosa se estiman los Parámetros Biomecánicos de la Cubierta del Pliegue Vocal (25). De la Onda Acústica Promedio se estiman los Parámetros Biomecánicos del Cuerpo del Pliegue Vocal (24).
En los procedimientos de reconstrucción del
residual de onda glótica de la Figura 2 juegan un papel relevante
los filtros inversos propuestos, que son parte importante de la
presente solicitud porque mejoran la robustez de los procesos de
estimación empleados en el estado del arte, y son más precisos que
los convencionales de tipo autorregresivo. A continuación se pasa a
describir cada uno de los bloques de las Figuras 2 y 3 en mayor
detalle:
- Bloque (12)
- En la Figura 4 se muestra la estructura del filtro cancelador del efecto de radiación (32) equivalente al bloque (12) de la Figura 2, el cual se implementa mediante una celosía adaptativa de modo que la señal de voz (26) es dividida en dos ramas (27) y (28) y alimenta a un estimador PARCOR (29) que se utiliza para cancelar la correlación cruzada en (30) entre (27) y (28) desfasada, generando la señal libre del efecto de radiación en (31).
- Bloques (13)-(14)
- Se construyen como los filtros modelo-espejo, se describen en la Figura 5. En ella el filtro de modelado recibe las señales de propagación directa (33) y reversa (33') procedentes de la señal glótica sobre las que estima un coeficiente de correlación parcial (34) que se usa en (35) para eliminar dicha correlación dando lugar a dos nuevas señales de propagación directa (36) y reversa (36'). El mismo coeficiente de correlación parcial (34) se aplica sobre los flujos de propagación directa (37) y reversa (37') procedentes de la señal de voz en el filtro espejo para eliminar dicha correlación cruzada (38) dando lugar a dos nuevos flujos de propagación directa (39) y reversa (39'). Estos filtros de celosías emparejadas se pueden encadenar hasta constituir un sistema de orden adecuado al tipo de modelado requerido. En el sistema (13)-(14) suele ser suficiente encadenar de una a tres de estas etapas.
- Bloques (15)-(16)
- Se construyen como los filtros modelo-espejo que se describen en la Figura 5. En ella el filtro de modelado recibe las señales de propagación directa (33) y reversa (33') procedentes de la voz desglotalizada sobre las que estima un coeficiente de correlación parcial (34) que se usa en (35) para eliminar dicha correlación dando lugar a dos nuevas señales de propagación directa (36) y reversa (36'). El mismo coeficiente de correlación parcial (34) se aplica sobre los flujos de propagación directa (37) y reversa (37') procedentes de la señal de voz en el filtro espejo para eliminar dicha correlación cruzada (38) dando lugar a dos nuevos flujos de propagación directa (39) y reversa (39'). Estos filtros de celosías emparejadas se pueden encadenar hasta constituir un sistema de orden adecuado al tipo de modelado requerido. En el sistema (15)-(16) puede ser necesario encadenar varias decenas de estas etapas, dependiendo de la precisión que se desee obtener en las estimaciones, y de la frecuencia de muestreo de las señales.
- Bloques (17)-(18)
- Se construyen como integradores simples de la señal que reciben a su entrada, para lo que se pueden utilizar diferentes algoritmos con o sin fuga para garantizar la compensación de la deriva continua.
- Bloque (19)
- Estimador de Parámetros Temporales. Se diseña para que se puedan determinar adecuadamente los parámetros temporales de relevancia en la señal glótica que se muestra en la Figura 6 (voz masculina) y 7 (voz femenina). Los parámetros de base temporal del ciclo de fonación están referidos a los instantes singulares del Ciclo de Fonación tal como se ilustra en las citadas figuras, que son:
- \bullet
- Instante de Inicio del Cierre Glótico. Es el punto en que la Fuente Glótica alcanza su valor mínimo en forma de espiga puntiaguda negativa (punto inicial de las Figuras 6 y 7, (40 y 43), equivalente a los puntos marcados con un asterisco /*/ en la plantilla inmediatamente inferior a la referida en dicha figura), resultante de la depresión que produce en la zona supraglótica la interrupción brusca del flujo, mientras que la columna de aire presente en el Tracto Vocal sigue su movimiento de salida dado su comportamiento inercial. Se toma como origen del ciclo glótico, en t=0.
- \bullet
- Instante de Recuperación t=Tr. Cuando se cierra bruscamente un conducto por el que circula un fluido, se produce una retroacción expresada como un pico negativo de presión, ya que se produce un vacío por la incapacidad del fluido en movimiento para detenerse instantáneamente por poseer una masa inerte. Ello induce un retroceso de parte del fluido, que compensa la caída de presión al cabo de un breve tiempo. El instante de recuperación es el punto temporal en que el retroceso parcial de la columna de aire presente en el Tracto Vocal equilibra de nuevo la presión supraglótica a la de reposo (atmosférica, o de referencia).
- \bullet
- Instante de Inicio de la Apertura t=To. Es el punto en que las cuerdas vocales vuelven a abrirse incipientemente.
- \bullet
- Instante de máxima sobrepresión t=Tm. Es el punto en que se alcanza el máximo de presión supraglótica.
- \bullet
- Instante de Inicio del Cierre t=Tc. Es el punto en que se alcanza la máxima apertura o luz entre los pliegues vocales, correspondiente con el máximo flujo si se pudiese descartar la influencia del Tracto Vocal, a partir del cual la luz entre pliegues (apertura) empieza a decrecer.
- \bullet
- Instante Final del Ciclo Glótico t=Tg, Es el punto en el que se alcanza el mínimo de presión supraglótica, y que coincide con el inicio de un nuevo ciclo.
Sobre la fuente glótica (señal en grueso) se
estiman cuatro tiempos de referencia en la parametrización temporal:
el instante de retorno (T_{r}), el instante de apertura
(T_{o}), el instante de máxima amplitud (T_{m}) y
el instante de inicio del cierre (T_{c}). La duración
completa del ciclo glótico viene dada por T_{g}. La
parametrización temporal se basa en la estimación de dos señales a
partir de la fuente glótica: la onda acústica promedio
s_{s}(n), y el correlato de la onda mucosa
s_{w}(n), según se ilustra en el Proceso (21). Sobre
el flujo glótico (señal en fino) se estima un tiempo de referencia,
coincide con el máximo de dicha onda (T_{M}).
- Bloque (20)
- Estimador de Parámetros de Distorsión. Se estima una serie de parámetros de distorsión, que son el jitter, el shimmer de amplitud, el shimmer de área, la agudeza del cierre, y la relación cubierta/cuerpo.
- Bloque (21)
- La onda acústica promedio es una señal de carácter semisinusoidal que tiene la duración de un arco glótico para voz masculina o femenina, (40) o (43), con una amplitud que minimiza la diferencia entre su área y la de la fuente glótica. Su estimación se realiza para cada ciclo de fonación, y en forma síncrona con el principio y fin de éste, definido desde mínimo a mínimo de la fuente glótica como se muestra en las plantillas (42) y (45) de las Figuras 6 y 7.
- Bloque (22)
- Estimador de la Densidad Espectral de Potencia de la Envolvente de la Onda Glótica. La envolvente de la densidad espectral de potencia del correlato glótico de que se trate (onda glótica, onda mucosa) se estima como el módulo de la Transformada de Fourier de un ciclo de la citada onda, y su aspecto es similar al descrito en la Figura 8.
- Bloque (23)
- Estimador de los Parámetros Biométricos de la Onda Mucosa. El comportamiento promedio de la envolvente de la onda glótica o de la onda mucosa es de caída inversamente proporcional a la frecuencia, mostrando ciertas singularidades en forma de picos (46) y valles (47) alternados. La estimación precisa de estos picos y valles constituye el conjunto de parámetros biométricos de la envolvente de la densidad espectral de potencia de la onda referida.
- Bloque (24)
- Estimador de la Biomecánica del Cuerpo del Pliegue Vocal. Se basa en el ajuste de una función de transferencia de segundo orden (49) sobre la densidad espectral de la onda acústica promedio (48) como se muestra en la Figura 9 en un intervalo de baja frecuencia. Los parámetros de la función de transferencia de ajuste constituyen los Parámetros Biomecánicos del Cuerpo del Pliegue Vocal.
- Bloque (25)
- Estimador de la Biomecánica de la Cubierta del Pliegue Vocal. Se basa en el ajuste de una función de transferencia de segundo orden (51) sobre la densidad espectral del correlato de onda mucosa (50) como se muestra en la Figura 10 en un intervalo de baja frecuencia. Los parámetros de la función de transferencia de ajuste constituyen los Parámetros Biomecánicos de la Cubierta del Pliegue Vocal.
Se lleva a cabo mediante una Celosía de Error de
Predicción de primer orden como la que se muestra en la Figura 4,
que opera como un filtro FIR (Finite Impulse Response) según la
recursión, donde n hace referencia al índice temporal discreto:
de modo que cuando
k=1 y c_{0}=-r_{f} (primer
coeficiente de reflexión) supuesto
que:
\newpage
la celosía se comporta como un
diferenciador de primer
orden:
con función de transferencia dada
por:
que cancela el polo de primer orden
introducido por los efectos de la radiación en los
labios.
Según se muestra en la Figura 2 el filtro
glótico inverso tiene por función construir un modelo de inversión
espectral de la señal a su entrada, que es el residual de onda
glótica a modelar s_{ri}(n). En el modelado se
obtienen unos coeficientes de pivotaje
{c_{k}}\rightarrow{h_{gi}} que inyectados en
otra celosía semejante (filtro espejo) permiten eliminar la huella
espectral de la señal modelada sobre otra señal diferente, en este
caso la señal de voz compensada en radiación
s_{l}(n), dando lugar a la voz desglotalizada
s_{vi}(n). La estimación de los coeficientes de
pivotaje se puede hacer en modo bloque o en modo adaptativo. Ambos
mecanismos son utilizados por el método propuesto en la
solicitud.
Según se muestra en la Figura 2 la función de un
filtro espejo es la de realizar la deconvolución de la señal a su
entrada respecto a un conjunto de parámetros
{c_{k}}\rightarrow{h_{gi}} estimados en un
modelo nodriza que obtiene los mismos y los inyecta en el filtro
espejo. Los dos filtros, de modelado inverso y su espejo,
constituyen un estimador conjunto de procesos, y su implementación
mediante celosías puede verse en la Figura 5, que muestra una etapa
de este tipo de estructuras. La replicación de K de estas
etapas permite construir el estimador conjunto de orden K. En
este caso la señal a procesar es la voz compensada en radiación
(s_{l}(n) reducida al punto labial), dando lugar a
la señal de voz desglotalizada s_{vi}(n).
Según la Figura 2 los parámetros del filtro de
modelado inverso del tracto vocal
{c_{k}}\rightarrow{h_{vi}} (16) inyectados en el
correspondiente filtro espejo (15) eliminan de la señal de voz
compensada en radiación s_{l}(n) la influencia de
los procesos articulatorios y dejan como resultado el residual
glótico s_{ri}(n).
Refiriéndose asimismo a la Figura 2, el
funcionamiento de este tipo de sistema es similar al descrito en
(13), aunque en este caso la señal que se modela es la señal de voz
desglotalizada s_{vi}(n). De este modo se deriva un
conjunto de coeficientes de pivotaje
{c_{k}}\rightarrow{h_{vi}} que modelan en forma
inversa el comportamiento en frecuencia del tracto vocal.
Según la Figura 3 se genera la fuente glótica
s_{gi}(n) a partir del residual glótico
s_{ri}(n) por integración simple mediante la
expresión:
donde r_{l} es un
coeficiente de control de derivas cuyo fin es evitar la acumulación
de estos efectos no
deseados.
Según la Figura 3 se genera el flujo glótico
u_{gi}(n) a partir de la fuente glótica
s_{gi}(n) por integración simple mediante la
expresión:
donde r_{i} es el
correspondiente coeficiente de control de
derivas.
Un ejemplo de ciclo de la fuente glótica
s_{gi}(n) se puede ver en las Figuras 6 (masculina)
y 7 (femenina). Los parámetros de base temporal del ciclo de
fonación están referidos a los instantes singulares del Ciclo de
Fonación tal como se ilustra en la Figura 6, que son:
- \bullet
- Instante de Inicio del Cierre Glótico. Es el punto en que la Fuente Glótica alcanza su valor mínimo en forma de espiga puntiaguda negativa (punto inicial de la Figura 6, superior, equivalente a los puntos marcados con un asterisco /*/ en (42) o (45), resultante de la depresión que produce en la zona supraglótica la interrupción brusca del flujo, mientras que la columna de aire presente en el Tracto Vocal sigue su movimiento de salida dado su comportamiento inercial. Se toma como origen del ciclo glótico, en t=0.
- \bullet
- Instante de Recuperación t=T_{r}. Es el punto en que el retroceso parcial de la columna de aire presente en el Tracto Vocal equilibra de nuevo la presión supraglótica a la de reposo (atmosférica, o de referencia).
- \bullet
- Instante de Inicio de la Apertura t=T_{o}. Es el punto en que las cuerdas vocales vuelven a abrirse incipientemente.
- \bullet
- Instante de máxima sobrepresión t=T_{m}. Es el punto en que se alcanza el máximo de presión supraglótica.
- \bullet
- Instante de Inicio del Cierre t=T_{c}. Es el punto en que se alcanza la máxima apertura o luz entre los pliegues vocales, correspondiente con el máximo flujo si se pudiese descartar la influencia del Tracto Vocal, a partir del cual la luz entre pliegues (apertura) empieza a decrecer.
- \bullet
- Instante Final del Ciclo Glótico t=T_{g}, Es el punto en el que se alcanza el mínimo de presión supraglótica, y que coincide con el inicio de un nuevo ciclo.
Sobre la fuente glótica (señal en grueso) se
estiman cuatro tiempos de referencia en la parametrización temporal:
el instante de retorno (T_{r}), el instante de apertura
(T_{o}), el instante de máxima amplitud (T_{m}) y
el instante de inicio del cierre (T_{c}). La duración
completa del ciclo glótico viene dada por T_{g}. La
parametrización temporal se basa en la estimación de dos señales a
partir de la fuente glótica: la onda acústica promedio
s_{s}(n), y el correlato de la onda mucosa
s_{w}(n). Sobre el flujo glótico (señal en fino) se
estima un tiempo de referencia, coincide con el máximo de dicha onda
(T_{M}). De acuerdo con las anteriores definiciones
establecidas en el Bloque (19), la estimación de cada uno de los
tiempos de referencia se ajusta a los siguientes procedimientos:
Asimismo se estiman los siguientes parámetros de
base temporal, que se detallan a continuación:
- \bullet
- OQ, coeficiente de apertura, que mide la duración relativa del intervalo en que la glotis está abierta con respecto a la duración del ciclo glótico T_{g}.
- \bullet
- SQ, coeficiente de velocidad, que mide la relación entre las dos partes del ciclo de apertura, antes y después del punto de amplitud máxima positiva.
- \bullet
- ClQ, coeficiente de cierre, que mide la relación entre la segunda mitad del ciclo de apertura, desde el punto de amplitud máxima positiva hasta el instante de cierre, y la duración del ciclo glótico T_{g}.
- \bullet
- RQ, coeficiente de retorno, que mide la relación entre el intervalo de retorno y la duración del ciclo glótico T_{g}.
- \bullet
- NAQ, coeficiente de amplitud normalizada, que mide la relación entre el valor máximo del flujo glótico (curva en línea fina) y el área del cuadrante inferior de la onda gótica por debajo de T_{o}.
- \bullet
- ArQ, coeficiente de amplitud relativa del instante de retorno respecto a la amplitud máxima.
- \bullet
- AoQ, coeficiente de amplitud relativa del instante de apertura respecto a la amplitud máxima.
\vskip1.000000\baselineskip
Los parámetros anteriores se estiman de la
siguiente manera:
Finalmente se añade un grupo adicional de
parámetros que mide la eficacia de la fonación, como relación entre
la eficiencia de la inyección aérea y la deficiencia del cierre
glótico (escapes debidos a cierre defectuoso) y que se definen
como:
- \bullet
- ODQ, coeficiente de defecto en apertura, parámetro que estima la merma del flujo promedio en la fase de apertura glótica (desde T_{o} hasta T_{g}), debida a la presencia de cierre prematuro, o deficiencia en inyección.
- \bullet
- CDQ, coeficiente de defecto de cierre, parámetro que estima el flujo promedio en la fase de cierre glótico (desde 0 hasta T_{o}), debida a la presencia de apertura prematura, o deficiencia por escape.
- \bullet
- GEQ - eficiencia glótica, parámetro que estima el complementario de la deficiencia por inyección más la deficiencia por escape, como factor de mérito en la fonación.
\newpage
Los parámetros anteriores se estiman de la
siguiente manera:
Donde s_{gk} es la onda glótica,
\psi_{g} es una ondícula de tipo Gausiano, escalable en el
parámetro \sigma y desplazable en el parámetro \delta. El cuadro
de asignación de Parámetros de Base Temporal del Ciclo de Fonación
queda como sigue:
A partir de la fuente glótica evaluada en el
ciclo de fonación k-ésimo:
donde
n_{k-l} y n_{k} son los límites
temporales superiores de los ciclos glóticos
k-l-ésimo y k-ésimo
respectivamente con tamaños dados
por:
Se estima una serie de parámetros de distorsión,
que son el jitter, el shimmer de amplitud, el
shimmer de área, la agudeza del cierre, y la
relación cubierta/cuerpo, que se definen a continuación. El
jitter se estima como:
El shimmer de amplitud se estima asimismo
como:
donde s_{gmk} es el máximo
valor en amplitud de pico a pico que toma la fuente glótica dentro
del ciclo
k-ésimo.
\vskip1.000000\baselineskip
El shimmer de área se estima asimismo
como:
donde S_{gk} es el área
cerrada por la amplitud pico a pico de la fuente glótica en el ciclo
k-ésimo:
La agudeza del cierre se define para un
punto de cierre dado en n=n_{k}:
donde 2n_{w}+1 es el
tamaño de una ventana temporal alrededor del punto de
cierre.
\vskip1.000000\baselineskip
La relación cubierta/cuerpo se estima
como:
donde s_{sk}(n) y
s_{wk}(n) son la onda acústica promedio y el
correlato de onda mucosa,
respectivamente.
La onda acústica promedio es una señal de
carácter semi-sinusoidal que tiene la duración de un
arco glótico, y cuya amplitud cumple un determinado criterio, como
se comenta a continuación. Su estimación se realiza para cada ciclo
de fonación, y en forma síncrona con el principio y fin de éste,
definido desde mínimo a mínimo de la fuente glótica (clipping) como
se muestra en (42) o (45), de modo que siendo k el índice del
ciclo de fonación de que se trate tendremos las siguientes
definiciones:
s_{sk}(n) y
s_{mk}(n) son la onda acústica promedio y el
correlato de onda mucosa. La onda acústica promedio es una
semi-sinusoide de semiperíodo igual a la duración
del ciclo de fonación
T_{ck}:
\newpage
siendo la pulsación
correspondiente:
La amplitud de la semi-sinusoide
representativa de la onda acústica promedio se evalúa minimizando la
energía del correlato de la onda mucosa:
respecto a dicha
amplitud:
Consecuentemente la derivada del correlato de la
onda mucosa se puede estimar como:
si se utiliza la regla rectangular
por la
izquierda.
La envolvente de la densidad espectral de
potencia del correlato de onda mucosa se define como el módulo de la
Transformada de Fourier de un ciclo de onda mucosa, esto es:
La Figura 8 muestra un ejemplo de dicha
estimación, con los principales parámetros biométricos derivados de
las singularidades de la envolvente.
La definición del conjunto de parámetros
biométricos de la onda glótica incluye tres tipos de parámetros. El
primer juego de parámetros resulta de evaluar los coeficientes
cepstrales del correlato de onda mucosa ciclo a ciclo, según la
definición que sigue:
donde W_{k} es el tamaño
de la ventana definida en el dominio de la frecuencia sobre la
densidad espectral de potencia del correlato de onda mucosa, y
q es el índice de selección del parámetro cepstral
correspondiente. La asignación paramétrica resultante es la
siguiente:
El segundo juego de parámetros resulta de
evaluar los valores de las singularidades del perfil de la densidad
espectral de potencia del correlato de onda mucosa según se define
en la Figura 8, que se expresan como:
donde M_{1},
M_{2} y M_{3} son los argumentos de los tres
primeros máximos de la densidad espectral de potencia del correlato
de onda mucosa expresada en
decibelios.
\vskip1.000000\baselineskip
El tercer juego de parámetros incluye las
relaciones de aspecto de los dos primeros mínimos del perfil de la
densidad espectral de potencia del correlato de la onda mucosa,
definidos como:
donde S_{wkdB} es la
densidad espectral de potencia referida en
decibelios.
\newpage
Se pueden obtener estimaciones fiables de los
valores relativos de las masas y tensiones elásticas de los pliegues
vocales a partir de la densidad espectral de potencia de la onda
acústica promedio:
La técnica de estimación se basa en el ajuste
adaptativo de la densidad espectral de potencia de la onda acústica
promedio contra la función de transferencia del modelo de pliegue
vocal de una masa. La hipótesis de trabajo se basa en la suposición
de que la onda acústica promedio está determinada por las
componentes dinámicas del pliegue, y por lo tanto, su densidad
espectral de potencia está directamente relacionada con el módulo al
cuadrado de la admitancia del modelo electromecánico de una masa
dada por:
donde M_{b},
K_{b} y R_{b} son respectivamente los parámetros
asociados a la masa dinámica, la elasticidad y las pérdidas del
modelo de una masa cuando se toma solo el cuerpo de la misma en
consideración. La estimación robusta de los parámetros del modelo se
basa en la determinación de dos puntos sobre la densidad espectral
de potencia de la componente dinámica tales como {G_{b1},
\omega_{1}} y {Gb_{2}, \omega_{2}}. Los Parámetros
Biomecánicos de la Fuente Glótica se estiman aproximando la Densidad
Espectral de Potencia de la Fuente Glótica mediante la Función de
Transferencia de un sistema RLC serie cuyos elementos de circuito
-M_{b}, K_{b} y R_{b}- son seleccionados
por los procedimientos que se describen a
continuación.
El parámetro de pérdidas del cuerpo se estima
como
donde G_{r} es el valor
del módulo al cuadrado de la admitancia de entrada dada por eq. 45 a
la frecuencia de resonancia \omega_{r} determinada por el primer
máximo de la densidad espectral de potencia de la fuente
glótica.
La masa dinámica equivalente del cuerpo de la
cuerda puede estimarse como:
La selección de los puntos de referencia más
adecuados {T_{b1}, \omega_{1}} y {T_{b2},
\omega_{2}} está fuertemente relacionada con la robustez del
método de estimación.
Una vez determinado el parámetro de masa
dinámica, el parámetro de rigidez elástica K_{b} puede
obtenerse de la determinación precisa del pico máximo
{T_{r}, \omega_{r}}, como:
Los pliegues vocales son asimétricos desde un
punto de vista anatómico, fisiológico y biomecánico, tanto en
individuos normofónicos (aquellos calificados como libres de
disfunción por especialistas en foniatría o logopedia previa
inspección y trazado de su historial) como disfónicos (aquellos a
quienes se ha diagnosticado una determinada alteración de la
fonación como resultado de causa orgánica o funcional), aunque
posiblemente en mayor medida en ciertas disfonías que en otras. Esta
asimetría es observable como un desbalance de los parámetros
biomecánicos estimados para ciclos de fonación vecinos. Este
desbalance será más grande en casos donde la patología fisiológica
del pliegue vocal esté presente, sobre todo si afecta de forma
diferencial a ambos pliegues, como en el caso de quistes o pólipos
unilaterales, por ejemplo. El desbalance de la vibración de los
pliegues vocales debe corresponderse con un desbalance en las
estimaciones de los parámetros biomecánicos de un individuo dado
cuando se comparen ciclo a ciclo. Se acepta generalmente que la
presencia de desbalance es un correlato de la patología del pliegue
vocal, y que este desbalance se halla estimado en parámetros de
distorsión como el jitter y el shimmer. El desbalance
entre ciclos de fonación vecinos puede apreciarse en (42) y (49), ya
que aunque procedentes de individuos supuestamente normofónicos, se
constata la diferencia en amplitud entre ciclo y ciclo, y si bien
menos perceptible, también en su duración. Por todo lo expuesto,
resulta de sumo interés recoger las variaciones
inter-ciclo de las estimaciones de los parámetros
biomecánicos mediante medidas de desbalance de masa, tensión y
pérdidas obtenidas para cada ciclo (\mu_{b}: Desbalance de la
Masa del Cuerpo; \sigma_{b}: Desbalance de las Pérdidas del
Cuerpo; \gamma_{b}: Desbalance de la Tensión del Cuerpo), las
cuales se pueden definir como:
donde
1\leqk\leqK es el índice del ciclo de
fonación, y \hat{\mathit{M}}_{bk}, \hat{\mathit{R}}_{bk}, y
\hat{\mathit{K}}_{bk} son los estimados de la masa, las pérdidas
y la tensión para el ciclo k-ésimo de una muestra de voz procedente
de un individuo dado. Dado que el parámetro de interelasticidad
K_{bl,r} no se incluye en la lista de parámetros
biomecánicos habitualmente, si se considera que los pliegues son
totalmente simétricos, bastará con calcular tres parámetros por
pliegue (masa, elasticidad y pérdidas del cuerpo, e ídem de
cubierta), y sus tres desbalances, hasta completar seis parámetros
biomecánicos de cuerpo de pliegue vocal. El cuadro de asignación de
parámetros queda como
sigue:
Similarmente al caso de los parámetros
biomecánicos del cuerpo del pliegue vocal se pueden estimar los
parámetros biomecánicos de su cubierta a partir de la densidad
espectral de potencia del correlato de la onda mucosa, calculado
según eq. 39, en forma totalmente similar a lo descrito para (24) en
referencia a los parámetros del cuerpo del pliegue, mediante el
ajuste de la Función de Transferencia de un sistema de segundo orden
cuyos elementos de circuito -M_{c}, K_{c} y
R_{c}- son seleccionados por el mismo procedimiento que en
(24). Para los parámetros biomecánicos de la cubierta del pliegue
vocal se utilizan derivaciones similares a partir del correlato de
la onda mucosa, ya que la influencia del cuerpo de la cuerda se ha
eliminado al separar la onda acústica promedio de la fuente glótica,
reduciendo el problema al modelo de una sola masa, lo que facilita
la aplicación de la misma metodología. Por lo que respecta a los
parámetros de desbalance (\mu_{c}: Desbalance de la Masa de la
Cubierta; \sigma_{c}: Desbalance de las Pérdidas de la Cubierta;
\gamma_{c}: Desbalance de la Rigidez de la Cubierta), su
estimación es asimismo idéntica. La asignación de parámetros
resultante es la siguiente:
La utilidad de los diferentes parámetros
evaluados mediante el proceso de estimación referido en la Figura 3
es la siguiente, sin excluir otras posibles:
- Parámetro p_{1k}. Es el período del ciclo glótico, inversa de la frecuencia fundamental. Sirve, con otros, para distinguir voz masculina de femenina.
- Parámetro p_{2k}. Es el jitter dado en la eq. 27. Sirve, junto con otros, para detectar inestabilidad en la fonación, y ayuda a caracterizar la disfonía (aplicación en detección y gradación de disfonía).
\newpage
- Parámetro p_{3k}. Es el shimmer de amplitud dado en la eq. 28. Sirve, junto con otros, para detectar inestabilidad en la fonación, y ayuda a caracterizar la disfonía (aplicación en detección y gradación de disfonía).
- Parámetro p_{4k}. Es el shimmer de área dado en la eq. 29. Sirve, junto con otros, para detectar inestabilidad en la fonación, y ayuda a caracterizar la disfonía (aplicación en detección y gradación de disfonía).
- Parámetro p_{5k}. Es la agudeza del cierre glótico dada en la eq. 31. Sirve, junto con otros, para detectar emocionalidad en la fonación, y ayuda a caracterizar la disfonía (aplicación en detección y gradación de disfonía).
- Parámetro p_{6k}. Es la relación onda mucosa/onda glótica dada en la eq. 32. Sirve, junto con otros, para detectar posibles alteraciones neurológicas en un locutor, y ayuda a caracterizar la disfonía (aplicación en detección y gradación de disfonía).
- Parámetros cepstrales p_{7k}-p_{20k}. Forman parte de la firma biométrica del locutor en forma compacta según la eq. 41, y junto con otros ayudan en la identificación y verificación del locutor, tanto en aplicaciones de acceso seguro como en cotejo forense.
- Parámetros de perfil espectral p_{2lk}-p_{34k}. Forman parte de la firma biométrica del locutor según las eq. 42 y eq. 43, así como del comportamiento normofónico o disfónico de éste, y junto con otros ayudan en la identificación y verificación del mismo (aplicaciones de acceso seguro o cotejo forense), y en la determinación de la presencia de disfonía de origen orgánico (aplicación en detección y gradación de disfonía).
- Parámetros biomecánicos p_{35k}-p_{46k}. Constituyen un conjunto robusto de descriptores del funcionamiento mecánico de la glotis según las eq. 50 y eq. 51, y junto con otros ayudan en la determinación de las posibles causas de una disfonía, y en la cuantificación del grado de la misma (aplicación en detección y gradación de disfonía).
- Parámetros de base temporal p_{47k}-p_{58k}. Constituyen un descriptor robusto de los instantes de interés del ciclo glótico (cierre, retorno, apertura) según la eq. 24, y junto con otros sirven en la caracterización de la disfonía (aplicación en detección y gradación de disfonía).
Modo de realización
1
Se integra el método de parametrización completo
sobre una plataforma similar a la de la Figura 1 sin que se excluya
asimismo una plataforma informática de propósito general, que
permita registrar un segmento de habla de duración arbitraria, sobre
la que el experto (usuario) puede ubicar segmentos vocálicos por
inspección simple, sobre el cual se extraen los parámetros que el
usuario seleccione en configuración. La interfaz permite analizar la
trama deseada, y comparar sus resultados contra otra trama
cualquiera previamente analizada, contra un Modelo Normofónico de
Locutor, para la obtención de Detección y Gradación de Disfonía, o
contra un Modelo Universal de Locutor para la obtención de Cotejo
Forense. Los resultados pueden verse por ventanas en pantalla,
presentarse en ventanas individuales, imprimirse como figuras .pdf,
y almacenarse en hoja de cálculo Excel®.
\vskip1.000000\baselineskip
Modo de realización
2
Se integra el método de parametrización parcial
sobre una plataforma similar a la de la Figura 1 sin que se excluya
asimismo una plataforma informática de propósito general, que
registre un segmento de vocal /a/ de 0,2 seg. sobre el cual
extraigan los parámetros p_{lk}-p_{58k} y
represente los mismos sobre una interfaz de usuario incluyendo los
intervalos de normalidad para dichos parámetros, con objeto de que
el facultativo valore la calidad de la fonación.
\vskip1.000000\baselineskip
Modo de realización
3
Se integra el método de parametrización sobre
una plataforma similar a la de la Figura 1 sin que se excluya
asimismo una plataforma informática de propósito general, o en
dispositivo portable tipo teléfono móvil, pda o ipod, con micrófono
simple, que registra un segmento de voz, y realiza varias
parametrizaciones sobre segmentos contiguos en el centro de la trama
capturada, representando éstos en modo semáforo según el contraste
de los mismos sobre una población normada (ver Figura 11) en una
interfaz de usuario reducida para que el médico de asistencia
primaria pueda determinar la conveniencia o no de remitir al
paciente a los servicios de especialidad. Esta circunstancia se
complementa mediante la generación de un documento electrónico en
formato .pdf, una copia del cual se remite al servicio de
especialidad ORL, y otra copia se proporciona al paciente.
Se enmarca en el contexto de la relación entre
los Centros Médicos de Asistencia Primaria y los Servicios de
Atención Especializada en Otorrinolaringología. La detección y
gradación de la disfonía se puede llevar a cabo en una interfaz muy
sencilla similar a la descrita en la Figura 1 (10), siguiendo el
procedimiento de análisis que se fija en la Figura 11. Los
parámetros estimados a partir de la fuente glótica para una
población normofónica previamente evaluada por los Servicios
Especializados ORL y almacenados en una Base de Datos con Modelos de
Locutores se utilizan para construir un Modelo de Locutor
Normofónico (59) para hombres, y otro para mujeres, en un márgen de
edad entre 18-60 años. Una toma de voz (52, 54)
realizada con la interfaz de la Figura 1 (11) es automáticamente
contrastada contra el Modelo de Locutor Normofónico (59),
obteniéndose un análisis de contraste de un conjunto de parámetros
contra la estadística del Modelo de Locutor Normofónico (61). Si los
parámetros evaluados para el sujeto bajo inspección se despliegan
fuera del ámbito de normalidad, se colorea un semáforo por cada
parámetro (63). Con esta información visual el Médico de Atención
Primaria puede tomar la decisión de derivar o no al paciente a los
Servicios de Asistencia Especializada para su inspección y
tratamiento. Esta función se denomina "cribado de pacientes" y
está orientada a aumentar la eficacia de los Servicios
Especializados evitando inspecciones innecesarias, ahorrando costes
y tiempo al personal especializado.
Esta aplicación permite conceder o denegar
privilegios de acceso a personas por medio de su firma de voz, por
medio de una interfaz como la que se muestra en la Figura 1 (10),
siguiendo la descripción metodológica que se aporta en la Figura 12.
En la misma a partir de la señal de voz (64, 66) se extraen
parámetros del espectro de Fourier (FFT), y de predicción lineal
(LPC) que se utilizan para detectar el mensaje generado por el
locutor (p. ej. su nombre o un pin), así como para detectar su firma
biométrica (68-73). Ésta se mezcla con la firma
bio-metro-mecánica obtenida de la
fuente glótica para dar lugar a un supervector (74), cuyo
secuenciado se analiza para derivar el mensaje impreso en el mismo
(75 Parsing HMM) y se contrasta en biometría contra la Base de Datos
con Modelos de Locutores (76 Clustering GMM). Los valores del
análisis se combinan para dar una puntuación (78 Fusión de Scores)
que se utiliza para determinar la identidad del locutor de entre un
conjunto cerrado (77), y otorgar una certeza a dicha identidad (79).
En función de estos parámetros se decide conceder o denegar el
acceso (80 Aceptación, Rechazo) o solicitar una nueva evaluación por
voz o por otra biometría multimodal (Evaluación Alternativa).
Esta aplicación se basa en la interfaz (10) de
la Figura 1, según la cual se puede analizar una voz pregrabada
(82), o grabar una nueva (81, 83), la cual puede ser contrastada
contra un modelo universal de locutor (88) previamente generado
(Modelo Universal de Locutor) según la metodología expuesta en la
Figura 13. El resultado de la evaluación (90 Scores LR) se contrasta
contra una escala (91 Evaluación de Evidencia) que para valores por
debajo de 0 favorece la Hipótesis de la Defensa (de que no hay
evidencia plausible que permita vincular la voz procesada -dubitada-
contra otra voz previamente grabada cuya identidad es conocida
-indubitada- con el aval de la semejanza o disparidad de las mismas
respecto al Modelo de Locutor Universal de que disponga la base de
datos). Entre 0 y 2 la evidencia es débil (ED) o fuerte (EF), si
bien no ratifica suficientemente la Hipótesis de la Acusación (de
que hay evidencia plausible de vinculación entre debitada e
indubitada). En estos casos se aplica el principio de in dubio pro
reo. Finalmente si la evidencia está por encima de 2 se considera
que la evidencia es muy fuerte (EMF) a favor de la Hipótesis de la
Acusación.
Esta aplicación se basa en la misma plataforma
que la descrita en la Figura 11 para la aplicación de detección y
gradación de la disfonía, siguiendo las mismas pautas metodológicas.
La diferencia fundamental es que para generar las Bases de Datos de
Modelos de Locutores (59), y para el contraste de la voz de un
paciente contra las mismas, sólo se tienen en cuenta ciertos
parámetros del conjunto completo, como son p_{k5},
p_{k6}, p_{k7} y p_{k8} junto con
p_{k37} y p_{k43}, ya que se ha podido determinar
que estos parámetros, y no otros, presentan una alta correlación con
el deterioro neurológico del locutor y la alteración de su estado
emocional según estudios previos llevados a cabo por los proponentes
de la presente solicitud. Los parámetros a configurar para una
aplicación de este método a Centros de Asistencia Primaria,
similares a la descrita en la Figura 1 serán los citados, siendo el
tipo de evaluación similar al de la Figura 11. Las Bases de Datos de
Modelos de Locutores se habrán desarrollado con voz de individuos
libres de patología neurológica u orgánica, previamente
seleccionados en un Servicio de Especialidad ORL/Neurología. El
procedimiento de evaluación y decisión será por lo demás el mismo
que para la disfonía de origen orgánico ya comentada. El valor del
análisis será también el de evaluar el grado de deterioro
neurológico (inexistente, leve, moderado o grave) con objeto de
derivar o no al paciente a los Servicios Especializados.
Claims (13)
1. Método para la estimación de parámetros
fisiológicos de la fonación a partir de una señal de voz
caracterizado por que comprende:
- compensar la radiación de los labios en la
señal de voz mediante la cancelación del polo de primer orden
generado por dicha radiación en el espectro de la señal de voz
(12),
- efectuar un filtrado inverso (13, 14, 15, 16)
de al menos un segmento fonado en un ciclo de fonación para una
señal de voz compensada, donde dicho filtrado inverso comprende a su
vez:
- -
- modelar la inversión espectral de la señal de voz compensada (13, 14) para extraer la señal de voz desglotalizada,
- -
- modelar la inversión espectral del tracto vocal para extraer la onda glótica sin influencia sustancial del tracto vocal y para obtener los correlatos de vibración de los pliegues vocales (15, 16).
\vskip1.000000\baselineskip
2. Método de acuerdo con la reivindicación 1,
caracterizado por que la etapa de compensar la radiación de
los labios comprende además:
- modelar la inversión espectral (13) del tracto
vocal mediante una pluralidad de filtros de celosías adaptativas y
encadenables entre sí, dichos filtros configurados para dividir la
señal de voz en dos señales (27, 28) sobre las que se calcula la
correlación cruzada (29, 30) entre las dos señales divididas
desfasadas (27, 28) cancelando el efecto de la radiación en los
labios y generando una señal libre de radiación (31).
\vskip1.000000\baselineskip
3. Método de acuerdo con la reivindicación 1 ó
2, caracterizado por que la etapa de modelar la inversión
espectral de una señal (14, 15) comprende además:
- implementar una pluralidad de filtros
modelo-espejo (13, 14) configurados para estimar la
correlación parcial (34) y eliminar dicha correlación parcial (38)
de la señal glótica (37, 37') debida al tracto vocal generando
nuevas señales glóticas (39, 39') sin influencia sustancial del
tracto vocal.
\vskip1.000000\baselineskip
4. Método de acuerdo con una cualquiera de las
reivindicaciones anteriores, caracterizado por que comprende
calcular la onda glótica s_{qi}(n) mediante
integración de la señal residual de onda glótica
s_{ri}(n).
5. Método de acuerdo con la reivindicación 4,
que comprende estimar al menos uno de los siguientes parámetros
temporales (19) sobre la onda glótica s_{qi}(n):
- inicio del ciclo glótico;
- instante de recuperación Tr;
- instante de inicio de apertura de la cuerdas
vocales To;
- instante de máxima presión supraglótica
Tm;
- instante de inicio del cierre de los pliegues
vocales Tc;
- instante final del ciclo glótico con mínima
presión supraglótica Tg;
- coeficientes ODQ, CDQ y GEQ.
\vskip1.000000\baselineskip
6. Método de acuerdo con la reivindicación 4 ó
5, que comprende estimar al menos uno de los siguientes parámetros
de distorsión (20) sobre la onda glótica
s_{qi}(n):
- jitter,
- shimmer de amplitud,
- shimmer de área,
- agudeza del cierre,
- relación cubierta/cuerpo.
\vskip1.000000\baselineskip
7. Método de acuerdo con una cualquiera de las
reivindicaciones 4 a 6, caracterizado por que comprende
estimar la onda acústica promedio v_{qi}(n) para
estimar al menos uno de los siguientes conjuntos de parámetros
biométricos (22, 23) sobre la onda glótica s_{qi}(n)
mediante la detección de onda acústica promedio (21):
- densidad espectral de potencia del correlato
de onda mucosa,
- coeficientes cepstrales del correlato glótico
de onda mucosa,
- singularidades de la envolvente de la densidad
espectral de potencia del correlato glótico de onda mucosa.
\vskip1.000000\baselineskip
8. Método de acuerdo con una cualquiera de las
reivindicaciones 4 a 7, caracterizado por que comprende
estimar la onda acústica promedio v_{qi}(n) para al
menos uno de los siguientes parámetros biomecánicos (24, 25) sobre
la onda glótica s_{qi}(n) mediante la detección de
onda acústica promedio (21):
- parámetro de pérdidas,
- parámetro de masa dinámica equivalente del
cuerpo de la cuerda,
- parámetro de elasticidad,
- desbalances entre ciclos de fonación respecto
de:
- -
- la masa dinámica del cuerpo,
- -
- las pérdidas del cuerpo,
- -
- la elasticidad del cuerpo.
\vskip1.000000\baselineskip
9. Sistema para la estimación de parámetros
fisiológicos de la fonación a partir de una señal de voz que
comprende:
- medios configurados para compensar la
radiación de los labios en la señal de voz mediante la cancelación
del polo de primer orden generado por dicha radiación en el espectro
de la señal de voz,
- medios configurados para efectuar un filtrado
inverso (13,14,15,16) de al menos un segmento fonado en un ciclo de
fonación para una señal de voz compensada, donde dicho filtrado
inverso comprende a su vez:
- -
- medios configurados para modelar la inversión espectral de la señal de voz compensada (14) para extraer la señal de voz desglotalizada,
- -
- medios configurados para modelar la inversión espectral del tracto vocal para extraer la onda glótica sin influencia del tracto vocal y para obtener los correlatos de vibración de los pliegues vocales (15, 16).
\vskip1.000000\baselineskip
10. Sistema de acuerdo con la reivindicación 9,
caracterizado por que los medios configurados para compensar
la radiación de los labios comprenden además:
- medios configurados para modelar la inversión
espectral (13) del tracto vocal comprendiendo a su vez una
pluralidad de filtros de celosías adaptativas y encadenables entre
sí, donde dichos filtros están configurados para dividir la señal de
voz en dos señales (27, 28) sobre las que se calcula la correlación
cruzada (29, 30) entre las dos señales divididas
desfasadas (27, 28) cancelando el efecto de la radiación en los labios y generando una señal libre de radiación (31).
desfasadas (27, 28) cancelando el efecto de la radiación en los labios y generando una señal libre de radiación (31).
\vskip1.000000\baselineskip
11. Sistema de acuerdo con la reivindicación 9 ó
10, caracterizado por que los medios configurados para
modelar la inversión espectral de una señal (14, 15) comprenden
además:
- una pluralidad de filtros
modelo-espejo (13, 14) configurados para estimar la
correlación parcial debida al tracto vocal (34) y eliminar dicha
correlación parcial de la señal glótica (38).
\vskip1.000000\baselineskip
12. Sistema de acuerdo con una cualquiera de las
reivindicaciones 9 a 11, caracterizado por que las
estimaciones se realizan sobre al menos un Modelo de Locutor
Normofónico y son almacenadas en unos medios de almacenamiento para
ser comparadas con las estimaciones de un locutor cualquiera para
determinar la presencia y grado de la disfonía de acuerdo con la
desviación existente entre ambas estimaciones.
13. Sistema de acuerdo con una cualquiera de las
reivindicaciones 9 a 11, caracterizado por que las
estimaciones de un locutor cualquiera se almacenan en unos medios de
almacenamiento para identificar unívocamente a dicho locutor.
Priority Applications (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| ES201131069A ES2364401B2 (es) | 2011-06-27 | 2011-06-27 | Método y sistema para la estimación de parámetros fisiológicos de la fonación. |
| US14/127,202 US20140122063A1 (en) | 2011-06-27 | 2012-05-16 | Method and system for estimating physiological parameters of phonation |
| PCT/ES2012/000137 WO2013001109A1 (es) | 2011-06-27 | 2012-05-16 | Método y sistema para la estimación de parámetros fisiológicos de la fonación |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| ES201131069A ES2364401B2 (es) | 2011-06-27 | 2011-06-27 | Método y sistema para la estimación de parámetros fisiológicos de la fonación. |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| ES2364401A1 true ES2364401A1 (es) | 2011-09-01 |
| ES2364401B2 ES2364401B2 (es) | 2011-12-23 |
Family
ID=44455280
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| ES201131069A Active ES2364401B2 (es) | 2011-06-27 | 2011-06-27 | Método y sistema para la estimación de parámetros fisiológicos de la fonación. |
Country Status (3)
| Country | Link |
|---|---|
| US (1) | US20140122063A1 (es) |
| ES (1) | ES2364401B2 (es) |
| WO (1) | WO2013001109A1 (es) |
Families Citing this family (15)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2014036263A1 (en) * | 2012-08-29 | 2014-03-06 | Brown University | An accurate analysis tool and method for the quantitative acoustic assessment of infant cry |
| KR101621774B1 (ko) * | 2014-01-24 | 2016-05-19 | 숭실대학교산학협력단 | 음주 판별 방법, 이를 수행하기 위한 기록매체 및 단말기 |
| WO2015111772A1 (ko) * | 2014-01-24 | 2015-07-30 | 숭실대학교산학협력단 | 음주 판별 방법, 이를 수행하기 위한 기록매체 및 단말기 |
| WO2015115677A1 (ko) * | 2014-01-28 | 2015-08-06 | 숭실대학교산학협력단 | 음주 판별 방법, 이를 수행하기 위한 기록매체 및 단말기 |
| KR101621797B1 (ko) | 2014-03-28 | 2016-05-17 | 숭실대학교산학협력단 | 시간 영역에서의 차신호 에너지법에 의한 음주 판별 방법, 이를 수행하기 위한 기록 매체 및 장치 |
| KR101621780B1 (ko) | 2014-03-28 | 2016-05-17 | 숭실대학교산학협력단 | 차신호 주파수 프레임 비교법에 의한 음주 판별 방법, 이를 수행하기 위한 기록 매체 및 장치 |
| KR101569343B1 (ko) | 2014-03-28 | 2015-11-30 | 숭실대학교산학협력단 | 차신호 고주파 신호의 비교법에 의한 음주 판별 방법, 이를 수행하기 위한 기록 매체 및 장치 |
| US10614814B2 (en) * | 2016-06-02 | 2020-04-07 | Interactive Intelligence Group, Inc. | Technologies for authenticating a speaker using voice biometrics |
| US11398243B2 (en) | 2017-02-12 | 2022-07-26 | Cardiokol Ltd. | Verbal periodic screening for heart disease |
| EP3803863A4 (en) * | 2018-05-30 | 2022-07-06 | Tiktalk To Me Ltd. | METHOD AND SYSTEMS FOR COMPUTER-ASSISTED LEARNING AND REFERENCE OF ORAL THERAPY |
| CN111602194B (zh) * | 2018-09-30 | 2023-07-04 | 微软技术许可有限责任公司 | 语音波形生成 |
| CN109599102A (zh) * | 2018-10-24 | 2019-04-09 | 慈中华 | 识别经络状态的方法及装置 |
| US11721358B2 (en) * | 2019-06-17 | 2023-08-08 | Stichting Imec Nederland | System and method for calculating cardiovascular heartbeat information from an electronic audio signal |
| CN114822567B (zh) * | 2022-06-22 | 2022-09-27 | 天津大学 | 一种基于能量算子的病理嗓音频谱重构方法 |
| CN115310347B (zh) * | 2022-07-04 | 2025-09-02 | 南京航空航天大学 | 一种基于图像的病态声带智能辅助分析优化方法和装置 |
Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5577160A (en) * | 1992-06-24 | 1996-11-19 | Sumitomo Electric Industries, Inc. | Speech analysis apparatus for extracting glottal source parameters and formant parameters |
| US20050171774A1 (en) * | 2004-01-30 | 2005-08-04 | Applebaum Ted H. | Features and techniques for speaker authentication |
| US7398213B1 (en) * | 2005-05-17 | 2008-07-08 | Exaudios Technologies | Method and system for diagnosing pathological phenomenon using a voice signal |
| WO2010031437A1 (en) * | 2008-09-19 | 2010-03-25 | Asociacion Centro De Tecnologias De Interaccion Visual Y Comunicaciones Vicomtech | Method and system of voice conversion |
Family Cites Families (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US6195632B1 (en) * | 1998-11-25 | 2001-02-27 | Matsushita Electric Industrial Co., Ltd. | Extracting formant-based source-filter data for coding and synthesis employing cost function and inverse filtering |
| CN102047321A (zh) * | 2008-05-30 | 2011-05-04 | 诺基亚公司 | 用于提供改进的语音合成的方法、设备和计算机程序产品 |
-
2011
- 2011-06-27 ES ES201131069A patent/ES2364401B2/es active Active
-
2012
- 2012-05-16 WO PCT/ES2012/000137 patent/WO2013001109A1/es not_active Ceased
- 2012-05-16 US US14/127,202 patent/US20140122063A1/en not_active Abandoned
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5577160A (en) * | 1992-06-24 | 1996-11-19 | Sumitomo Electric Industries, Inc. | Speech analysis apparatus for extracting glottal source parameters and formant parameters |
| US20050171774A1 (en) * | 2004-01-30 | 2005-08-04 | Applebaum Ted H. | Features and techniques for speaker authentication |
| US7398213B1 (en) * | 2005-05-17 | 2008-07-08 | Exaudios Technologies | Method and system for diagnosing pathological phenomenon using a voice signal |
| WO2010031437A1 (en) * | 2008-09-19 | 2010-03-25 | Asociacion Centro De Tecnologias De Interaccion Visual Y Comunicaciones Vicomtech | Method and system of voice conversion |
Also Published As
| Publication number | Publication date |
|---|---|
| US20140122063A1 (en) | 2014-05-01 |
| WO2013001109A1 (es) | 2013-01-03 |
| ES2364401B2 (es) | 2011-12-23 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| ES2364401B2 (es) | Método y sistema para la estimación de parámetros fisiológicos de la fonación. | |
| Kadiri et al. | Analysis and detection of pathological voice using glottal source features | |
| US11538472B2 (en) | Processing speech signals in voice-based profiling | |
| Robin et al. | Evaluation of speech-based digital biomarkers: review and recommendations | |
| US10010288B2 (en) | Screening for neurological disease using speech articulation characteristics | |
| Benba et al. | Analysis of multiple types of voice recordings in cepstral domain using MFCC for discriminating between patients with Parkinson’s disease and healthy people | |
| Benba et al. | Voiceprints analysis using MFCC and SVM for detecting patients with Parkinson's disease | |
| Orozco-Arroyave | Analysis of speech of people with Parkinson's disease | |
| Benba et al. | Detecting patients with Parkinson's disease using Mel frequency cepstral coefficients and support vector machines | |
| Zhang et al. | An intelligent mobile-enabled system for diagnosing Parkinson disease: development and validation of a speech impairment detection system | |
| Cesari et al. | Voice disorder detection via an m‐health system: design and results of a clinical study to evaluate Vox4Health | |
| Suparatpinyo et al. | Smart voice recognition based on deep learning for depression diagnosis | |
| US20150154980A1 (en) | Cepstral separation difference | |
| Uloza et al. | Accuracy of acoustic voice quality index captured with a smartphone–measurements with added ambient noise | |
| Daudet et al. | Portable mTBI assessment using temporal and frequency analysis of speech | |
| CN120452481A (zh) | 基于多模态声纹数据分析的认知疾病智能风险管理方法 | |
| RU2013119828A (ru) | Способ определения риска развития заболеваний индивида по его голосу и аппаратно-программный комплекс для реализации способа | |
| Campi et al. | Ataxic speech disorders and Parkinson’s disease diagnostics via stochastic embedding of empirical mode decomposition | |
| Liu et al. | Evaluating the voice type component distributions of excised larynx phonations at three subglottal pressures | |
| Low et al. | Mel frequency cepstral feature and Gaussian Mixtures for modeling clinical depression in adolescents | |
| Jagtap et al. | System propose for Be acquainted with newborn cry emotion using linear frequency cepstral coefficient | |
| Anchalia et al. | Study and design of biometric security systems: fingerprint and speech technology | |
| KR20230006111A (ko) | 멀티 소스 기반 개인화된 음성 진단 학습 모델 구축방법 및 그 장치 | |
| CN119108078A (zh) | 基于深度学习的个性化嗓音康复训练方法及系统 | |
| Petermann et al. | Evaluation of analytical modeling functions for the phonation onset process |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| FG2A | Definitive protection |
Ref document number: 2364401 Country of ref document: ES Kind code of ref document: B2 Effective date: 20111223 |