ES2440646T3 - Detección de falsificación por cortar y pegar por alineamiento temporal dinámico - Google Patents

Detección de falsificación por cortar y pegar por alineamiento temporal dinámico Download PDF

Info

Publication number
ES2440646T3
ES2440646T3 ES09771309.3T ES09771309T ES2440646T3 ES 2440646 T3 ES2440646 T3 ES 2440646T3 ES 09771309 T ES09771309 T ES 09771309T ES 2440646 T3 ES2440646 T3 ES 2440646T3
Authority
ES
Spain
Prior art keywords
time
voice expression
voice
expression
characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES09771309.3T
Other languages
English (en)
Inventor
Jesús Antonio Villalba López
Alfonso ORTEGA GIMÉNEZ
Eduardo Lleida Solano
Sara Varela Redondo
Marta GARCÍA GOMAR
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Agnitio SL
Original Assignee
Agnitio SL
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Agnitio SL filed Critical Agnitio SL
Application granted granted Critical
Publication of ES2440646T3 publication Critical patent/ES2440646T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B66HOISTING; LIFTING; HAULING
    • B66BELEVATORS; ESCALATORS OR MOVING WALKWAYS
    • B66B13/00Doors, gates, or other apparatus controlling access to, or exit from, cages or lift well landings
    • B66B13/24Safety devices in passenger lifts, not otherwise provided for, for preventing trapping of passengers
    • B66B13/26Safety devices in passenger lifts, not otherwise provided for, for preventing trapping of passengers between closing doors
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Telephonic Communication Services (AREA)
  • Collating Specific Patterns (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

Procedimiento para comparar expresiones de voz, comprendiendo el procedimiento las etapas de: extraer una pluralidad de rasgos (201) de una primera expresión de voz de una muestra de texto determinada yextraer una pluralidad de rasgos (201) de una segunda expresión de voz de dicha muestra de texto determinada, enel que cada rasgo se extrae en función del tiempo, y en el que cada rasgo de la segunda expresión de vozcorresponde a un rasgo de la primera expresión de voz; aplicar alineamiento temporal dinámico (202) a por lo menos dos características que dependen del tiempo de laprimera y/o la segunda expresión de voz minimizando una o más medidas de distancia, en el que una medida dedistancia es una medida de la diferencia de una característica que depende del tiempo de la primera expresión devoz y una característica que depende del tiempo correspondiente de la segunda expresión de voz; calcular una medida de distancia total (203), en el que la medida de la distancia total es una medida de la diferenciaentre la primera expresión de voz de la muestra de texto determinada y la segunda expresión de voz de dichamuestra de texto determinada, en el que la medida de la distancia total se calcula (203) en base a una pluralidad depares de características que dependen del tiempo, y en el que un par de características que dependen del tiempoestá compuesto por una característica que depende del tiempo de la primera o la segunda expresión de voz y deuna característica que depende del tiempo (202) por alineamiento temporal dinámico respectivamente de la segundao la primera expresión de voz, o en el que un par de características que dependen del tiempo está compuesto poruna característica que depende del tiempo (202) por alineamiento temporal dinámico de la primera expresión de vozy una característica que depende del tiempo (202) por alineamiento temporal dinámico de la segunda expresión devoz; y en el que por lo menos una característica que depende del tiempo es una característica de un único rasgo y por lomenos una otra característica que depende del tiempo es una característica de una combinación de una pluralidadde rasgos (4) a los que se aplica el mismo alineamiento temporal dinámico (202), en el que la primera expresión de voz ha sido grabada previamente, y en el que la segunda expresión de voz serecibe (302) de una persona que habla, a petición (303), y en el que la medida de la distancia total se emplea para - detectar que la segunda expresión de voz es el resultado de una falsificación por cortar y pegar (306) si la primeraexpresión de voz no coincide bien con la segunda expresión de voz, y - validar a la persona que habla si la primera expresión de voz coincide bien con la segunda expresión de voz.

Description

Detección de falsificación por cortar y pegar por alineamiento temporal dinámico.
La descripción de las solicitudes PCT del mismo titular, con las solicitudes Nos. PCT/EP 2008/010478 presentada el 10 de diciembre de 2008, y PCT/EP2009/004649 presentada el 26 de junio de 2009 en la Oficina de Patentes Europea, se incorpora totalmente aquí por referencia. Además, se reivindican las prioridades de estas solicitudes de acuerdo con el Convenio de París.
La presente invención se refiere a un procedimiento, un medio informático y un aparato para comparar expresiones de voz.
La comparación de expresiones de voz puede utilizarse para reconocer a una persona que habla. Por ejemplo, la persona que habla realiza una expresión de voz de una muestra de texto determinada la cual se compara después con una expresión de voz previamente grabada de la misma persona que habla. En el caso de que las dos expresiones de voz coincidan razonablemente bien, la persona que habla es identificada con éxito. Tal identificación de una persona que habla puede utilizarse para validar una persona que desea obtener algún tipo de acceso o que tiene que demostrar la presencia en un lugar determinado, por ejemplo.
WO 98/34216 A2 describe un sistema y un procedimiento para detectar una voz grabada que puede utilizarse independientemente o para proporcionar protección ante un uso fraudulento de una grabación para burlar un sistema de reconocimiento de voz automático. Se han empleado diversas técnicas y sistemas independientemente o bien en combinación para verificar que una muestra de audio detectada es en directo y no está grabada. Las características de voz temporales de una muestra de audio se analizan para determinar si una muestra bajo examen es similar a una muestra previa para indicar que se trata de una grabación. Se examinan características del canal de comunicaciones para determinar si una muestra fue grabada en un canal distinto de un canal de comunicaciones predeterminado. Un clasificador de patrones se entrena para distinguir entre una voz en directo y una grabada. Finalmente, se utiliza una "marca de agua de audio" para determinar si una muestra de audio detectada es una grabación de una comunicación previa por un usuario autorizado.
Cuando se realiza una comparación de expresiones de voz pueden aparecer una serie de problemas. En primer lugar, incluso si para dos expresiones de voz que se utilizan en una comparación, la persona que habla así como la muestra de texto hablado son iguales, típicamente no se produce una coincidencia perfecta entre las dos expresiones de voz dado que la persona que habla puede pronunciar algunas palabras de manera algo distintas o la persona que habla podría pronunciar un texto determinado a una velocidad distinta, por ejemplo. En segundo lugar, la comparación debe ser capaz de detectar todo tipo de falsificación, tal como una falsificación por cortar y pegar. La falsificación por cortar y pegar la puede realizar una persona no autorizada cuando la persona no autorizada ha tenido acceso a texto grabado de la persona que habla y produce la muestra de texto cortando y pegando secuencias de estas expresiones de voz grabadas de esa persona que habla con el fin de producir expresiones de voz falsas de esa muestra de texto que tendría el sonido de la voz de esa persona que habla, en este ejemplo.
Por lo tanto, un problema a resolver por la presente invención es mejorar la comparación de expresiones de voz de manera, que por una parte, una persona que habla pueda ser identificada con gran eficacia y, por otra parte pueda detectarse con fiabilidad una falsificación, tal como una falsificación por cortar y pegar.
De acuerdo con la invención, el problema mencionado anteriormente se resuelve mediante el procedimiento de la reivindicación 1, el medio informático de la reivindicación 6 y el aparato de la reivindicación 7.
En las reivindicaciones dependientes se especifican realizaciones adicionales de la presente invención.
Un procedimiento para comparar expresiones de voz comprende las siguientes etapas:
En primer lugar, se extrae una pluralidad de rasgos de una primera expresión de voz de una muestra de texto determinada, y se extrae una pluralidad de rasgos de una segunda expresión de voz de dicha muestra de texto determinada. Todos los rasgos se extraen en función del tiempo y cada rasgo de la segunda expresión de voz tiene un rasgo correspondiente de la primera expresión de voz con el fin de poder utilizar el rasgo correspondiente para la comparación mencionada anteriormente.
En segundo lugar, se aplica alineamiento temporal dinámico a una o más características que dependen del tiempo de la primera y/o la segunda expresión de voz. Esto puede realizarse por ejemplo, minimizando una o más medidas de distancia o maximizando una medida de similitud. El alineamiento temporal dinámico se describe, por ejemplo, en la solicitud PCT del mismo titular con el número de solicitud mencionado anteriormente PCT/EP 2009/004649. Una medida de la distancia es una medida de la diferencia de una característica que depende del tiempo de la primera
expresión de voz y una característica que depende del tiempo correspondiente de la segunda expresión de voz. Una característica que depende del tiempo de una expresión de voz corresponde a una combinación de dos o más rasgos de diferentes tipos de rasgos. Aplicar alineamiento temporal dinámico a una característica que depende del tiempo de la primera o la segunda expresión de voz puede tener el efecto de que dicha característica se extienda o se comprima en determinadas zonas a lo largo del eje de tiempo. Debido a esta variación o flexibilidad, respectivamente, aplicar alineamiento temporal dinámico puede hacer que una característica que depende del tiempo de la primera o la segunda expresión de voz sea más similar a la característica que depende del tiempo que representa rasgos de la segunda o la primera expresión de voz, respectivamente. Por ejemplo, tratando conjuntamente dos o más rasgos en el proceso de alineamiento temporal dinámico, es decir, aplicando el mismo alineamiento temporal dinámico a los dos o más rasgos al mismo tiempo los rasgos pueden combinarse en una característica. Aquí, para el alineamiento temporal dinámico se utiliza una función de la distancia que tiene en cuenta dos o más rasgos al mismo tiempo. El alineamiento temporal dinámico puede realizarse de este modo sobre una combinación de rasgos.
En tercer lugar, se calcula una medida de la distancia total en la que la medida de la distancia total es una medida de la diferencia entre una primera expresión de voz de la muestra de texto determinada y la segunda expresión de voz de dicha muestra de texto determinada. La medida de la distancia total se calcula en base a uno o más pares de las características que dependen del tiempo mencionadas anteriormente, donde un par de características que dependen del tiempo está compuesta por una característica que depende del tiempo de la primera o la segunda expresión de voz y de una característica que depende del tiempo por alineamiento temporal dinámico de la segunda
o primera expresión de voz, respectivamente, o donde un par de características que dependen del tiempo está compuesta por una característica que depende del tiempo (202) por alineamiento temporal dinámico de la primera expresión de voz y de una característica que depende del tiempo (202) por alineamiento temporal dinámico de la segunda expresión de voz. En otras palabras, las características que dependen del tiempo de un par se comparan entre sí y estas comparaciones, en las que el número de comparaciones es igual que el número de pares, se reflejan en el cálculo de la medida de la distancia total.
Con el esquema anterior se encontró, en particular, que la falsificación por cortar y pegar puede identificarse y separarse claramente de otras expresiones de voz (por ejemplo, normales generadas por humanos). Los cambios temporales bruscos de valores de rasgos en expresiones de voz generadas por cortar y pegar producen diferencias bien reconocibles en las distancias indicadas anteriormente pero al mismo tiempo dan una buena tasa de aceptación para expresiones de voz no generadas por una falsificación por cortar y pegar.
Utilizar una pluralidad de rasgos en la comparación de expresiones de voz resulta útil, en particular, en situaciones en las que un rasgo no varía significativamente con el tiempo en un determinado intervalo de tiempo, pero otro rasgo varía significativamente con el tiempo en dicho intervalo de tiempo. En el caso de que se tengan en cuenta varios rasgos para la comparación de las expresiones de voz, puede garantizarse mejor que existe una variación significativa en el tiempo en toda la longitud de una expresión de voz lo cual puede ser útil cuando se aplica alineamiento temporal dinámico que funciona mejor para una variación significativa de rasgos simples o combinados con el tiempo.
Además, tener en cuenta una serie de rasgos también puede ser útil cuando se calcula la medida de la distancia total ya que una medida de la distancia total que se calcula en base a varios rasgos puede permitir una comparación de dos expresiones de voz de manera que, en casos en los que la misma persona que habla da correctamente ambas expresiones de voz, se separan mejor de casos en los que la segunda expresión de voz es el resultado de una falsificación por cortar y pegar. De nuevo, una variación de características continua en función del tiempo puede ser útil para detectar similitudes o bien diferencias que podrían resultar de una falsificación por cortar y pegar (donde podrían esperarse cambios abruptos en algunos de los rasgos).
Además, tener en cuenta una pluralidad de rasgos para la comparación de expresiones de voz permite realizar la comparación en forma de varias sub-comparaciones lo que, de nuevo, puede aumentar la fiabilidad de la comparación dado que pueden detectarse similitudes y diferencias en un determinado intervalo de tiempo solamente en el caso de algunos de los rasgos pero no necesariamente en el caso de cualquier rasgo individual.
La comparación de expresiones de voz puede comprender solicitar y recibir la segunda expresión de voz de una persona que habla y comparar la segunda expresión de voz con una primera expresión de voz que ha sido grabada previamente. Además, la medida de la distancia total se emplea con el fin de validar la persona que habla de la segunda expresión de voz o para detectar que la segunda expresión de voz es el resultado de una falsificación.
La pluralidad de rasgos puede comprender uno o más de los siguientes rasgos:
el tono una función del tono tal como el logPitch donde logPitch es el logaritmo del tono,
el primer formante o una función del primer formante tal como logF1 donde logF1 es el logaritmo del primer
formante, el segundo formante o una función del segundo formante tal como logF2 donde logF2 es el logaritmo del segundo formante,
la energía o una función de la energía tal como logE donde logE es el logaritmo de la energía, C1, donde C1 es la energía de baja frecuencia dividida por la energía de alta frecuencia o una función de C1, y derivadas temporales de cualquiera de los rasgos anteriores tales como la derivada temporal de logPitch,
logF1, logF2, logE y C1.
Las derivadas de los rasgos mencionados anteriormente se denominan a continuación con una D adicional delante tal como, por ejemplo, DlogPitch, DlogF1, y DlogF2. Si en un segmento de tiempo no puede determinarse un rasgo entonces este segmento de tiempo se elimina del
rasgo.
Las medidas de distancia utilizadas en contexto con alineamiento temporal dinámico y la medida de la distancia total pueden definirse como una distancia euclidiana
una distancia de Mahalanobis
y/o una distancia coseno
donde r y s son características que dependen del tiempo con índice k de una pluralidad de características (en el caso de que k sea sólo 1 existiendo solamente una característica a tener en cuenta), y donde s es una característica extraída de la primera expresión de voz y r es una característica extraída de la segunda expresión de voz. La distancia de Mahalanobis incluye, además, un rango de variación 0 para cada característica. En el caso de la distancia coseno para calcular la distancia se utilizan, en cambio, vectores de características que dependen del tiempo de segmentos de tiempo. Aquí cada entrada del vector representa un instante diferente para el cual se da el valor de la característica.
Pueden utilizarse en su lugar otras funciones de distancia.
El rango de variación 0, que se utiliza para calcular la distancia de Mahalanobis, puede calcularse teniendo en cuenta características de varias expresiones de voz. El 0 es una medida de la variabilidad (por ejemplo desviación estándar) del valor alrededor de su valor medio (a media que transcurre el tiempo). Por ejemplo, 0 se calcula teniendo en cuenta una característica de la primera expresión de voz y o la característica correspondiente de la segunda expresión de voz, o 0 se calcula teniendo en cuenta las características correspondientes de varias versiones de la primera expresión de voz y/o las características correspondientes de varias versiones de la segunda expresión de voz (por ejemplo, en caso de que la primera expresión de voz haya sido grabada varias veces, o si la segunda expresión de voz se solicita y se recibe varias veces).
Además, el rango de variación 0, que se utiliza para calcular la distancia de Mahalanobis, puede calcularse teniendo en cuenta una única característica de una expresión de voz, tal como por ejemplo la primera expresión de voz. Pueden utilizarse características que dependen del tiempo para calcular el rango de variación 0, ya sea antes o después de que se haya aplicado alineamiento temporal dinámico a dicha característica.
En otros procedimientos, la medida de la distancia total se calcula en base a un único par de características que dependen del tiempo en el que cada característica que depende del tiempo es una característica de un único rasgo. O, la medida de la distancia total se calcula en base a un único par de características que dependen del tiempo en el que cada característica que depende del tiempo es una característica de una combinación de una pluralidad de rasgos. O la medida de la distancia total se calcula en base a una pluralidad de pares de características que dependen del tiempo en el que cada característica que depende del tiempo es una característica de un único rasgo. O, la medida de la distancia total se calcula en base a una pluralidad de pares de características que dependen del tiempo en el que cada característica que depende del tiempo es una característica de un único rasgo o bien característica de una combinación de una pluralidad de rasgos. O, la medida de la distancia total se calcula en base a una pluralidad de pares de características que dependen del tiempo en el que cada característica que depende del tiempo es una característica de una combinación de una pluralidad de rasgos.
En el caso en que los rasgos se combinan con el fin de formar una característica que depende del tiempo, puede combinarse 2, 3, 4 ó 5 o cualquier número de rasgos, donde el número de rasgos típicamente es menor de 10. Además, el número de pares utilizados para calcular una medida de la distancia total puede ser 1, 2, 3, 4, 5 ó cualquier número de pares, que típicamente es menor de 10.
En otro procedimiento, se calcula una pluralidad de medidas de distancia total, y la comparación de la primera expresión de voz con la segunda expresión de voz se basa en la pluralidad de medidas de distancia total seleccionando una o más medidas de distancia total de la pluralidad de medidas de distancia total y, además, o alternativamente, combinando por lo menos dos medidas de distancia total o combinaciones de las mismas. Por ejemplo, una ventaja de calcular dos o más medidas de distancia total es que las medidas pueden compararse. Si las medidas de distancia total concuerdan bien entre sí el resultado de cada comparación puede confiarse más que en el caso en que las medidas de distancia total den resultados significativamente diferentes.
Otros aspectos de posibles realizaciones de la invención quedan claros a partir de las figuras 1, 2 y 3:
La figura 1 resume diferentes casos que pueden darse al comparar expresiones de voz,
La figura 2 es un diagrama de flujo de un procedimiento para comprar expresiones de voz, y
La figura 3 es un diagrama de flujo de un procedimiento para probar la corrección de una (segunda) expresión de voz.
La figura 1 muestra una gráfica que resume diferentes situaciones cuando se realiza una comparación de expresiones de voz. Las medidas de distancia que se utilizan para alineamiento temporal dinámico (DTW) pueden llevarse a cabo para características que dependen del tiempo, donde una característica que depende del tiempo es una característica de un único rasgo (columna izquierda) o bien de una combinación de por lo menos dos rasgos (columna derecha). La medida de la distancia total se calcula en base a pares de las características que dependen del tiempo mencionadas anteriormente. El cálculo de una medida de distancia total se basa en un único par de características que dependen del tiempo (línea superior) o bien se basa en una pluralidad de pares de características que dependen del tiempo (línea inferior).
Las columnas y las líneas mencionadas anteriormente se cruzan en cinco campos de intersección 1, 2, 3, 4, 5 que representan cinco casos distintos (números romanos).
El caso I es la situación en la que se calcula la medida de la distancia total en base a un único par de características que dependen del tiempo en el que cada característica que depende del tiempo (utilizada para DTW) es una característica de un único rasgo. Por ejemplo, la medida de la distancia total se basa en un par de características C1, donde una característica C1 se extrae de la primera expresión de voz y la otra característica C1 se extrae de la segunda expresión de voz.
En el caso II, la medida de la distancia total se calcula en base a un único par de características que dependen del tiempo en el que cada característica que depende del tiempo es una característica de una combinación de una pluralidad de rasgos. Por ejemplo, la medida de la distancia total se calcula en base a un único par de características que dependen del tiempo, donde cada característica que depende del tiempo de ese par es una combinación de logF1 y logF2.
En caso III, la medida de la distancia total se calcula en base a una pluralidad de pares de características que dependen del tiempo, donde cada característica que depende del tiempo es una característica de un único rasgo. Por ejemplo, la medida de la distancia total se calcula en base a tres pares de características que dependen del tiempo donde las características que dependen del tiempo del primer par son características de logPitch, donde las características que dependen del tiempo del segundo par son características de logF1, y donde las características que dependen del tiempo del tercer par son características de logF2.
El caso IV es la situación en la que la medida de la distancia total se calcula en base a una pluralidad de pares de características que dependen del tiempo donde cada característica que depende del tiempo es una característica de un único rasgo o bien característica de una combinación de una pluralidad de rasgos. En otras palabras, el caso IV es una mezcla de la columna de la izquierda con la columna de la derecha de la figura 1. Por ejemplo, la medida de la distancia total se calcula en base a tres pares de características que dependen del tiempo, donde las características que dependen del tiempo del primer par es una característica de logPitch, donde las características que dependen del tiempo del segundo par son características de combinaciones de logF1 y logF2, y donde las características para el tercer par son características para C1. Este ejemplo particular resultó ser el más efectivo para distinguir claramente entre expresiones de voz generadas por cortar y pegar y expresiones de voz generadas de manera normal, permitiendo incluso una EER (tasa de error igual) cero en una prueba en particular, lo que significa que todas las 120 expresiones de voz pueden ser identificadas correctamente como de cortar y pegar o como normales. Tal como puede apreciarse a partir de este ejemplo, el cálculo de una medida de la distancia total en base a una característica que es un rasgo único y una característica que es una combinación de rasgos resulta ser particularmente ventajoso.
En el caso V, la medida de la distancia total se calcula en base a una pluralidad de pares de características que dependen del tiempo, donde cada característica que depende del tiempo es una característica de una combinación de una pluralidad de rasgos. Por ejemplo, la medida de la distancia total se calcula en base a dos pares de características que dependen del tiempo, donde las características que dependen del tiempo del primer par son una característica de las combinaciones de logPitch y DlogPitch, y donde las características que dependen del tiempo del segundo par son características de combinaciones de logF1, logF2, DlogF1 y DlogF2.
A partir de los casos y ejemplos mencionados anteriormente queda claro que existen muchas maneras disponibles para calcular la medida de distancia total. La mejor manera de calcular la medida de distancia total puede depender del tipo de aplicación en la que se emplea la comparación de expresiones de voz. Para una aplicación específica, es posible determinar una configuración que funcione mejor realizando pruebas basadas en muestras de ensayo. Por ejemplo, una primera muestra de ensayo contiene primeras expresiones de voz, una segunda muestra de ensayo contiene correspondientes segundas expresiones de voz, y una tercera muestra de ensayo contiene correspondientes segundas expresiones de voz que han sido producidas uniendo secuencias de expresiones de voz entre sí (con el fin de simular una falsificación por cortar y pegar). Entonces, una primera expresión de voz de la primera muestra de ensayo puede compararse con una correspondiente segunda expresión de voz de la segunda muestra de ensayo, y la misma primera expresión de voz de la primera muestra de ensayo puede compararse con la correspondiente segunda expresión de voz de la tercera prueba de ensayo. Estas comparaciones con segundas expresiones de voz a partir de la segunda muestra de ensayo y la tercera muestra de ensayo pueden repetirse varias veces con el fin de permitir un análisis estadístico de los resultados de la comparación. De esta manera puede probarse lo bien que una medida de la distancia total particular puede separar comparaciones con segundas expresiones de voz a partir de la segunda muestra de ensayo de segundas expresiones de voz a partir de la tercera muestra de ensayo. El poder de separación puede cuantificarse, por ejemplo, calculando la tasa de error igual (EER)
o calculando la función de coste en base al cociente de probabilidad logarítmica mínimo (minCIIr).
La figura 2 muestra un diagrama de flujo que representa el procedimiento para comparar expresiones de voz. El procedimiento comienza en la etapa 200. En la etapa 201, se extrae una pluralidad de características de la primera expresión de voz y se extrae la correspondiente pluralidad de rasgos de una segunda expresión de voz. Después, en la etapa 202, se aplica un alineamiento temporal dinámico (DTW) a una o más características que dependen del tiempo de la segunda expresión de voz tal que se minimizan, por ejemplo, medidas de distancia correspondientes. Una medida de la distancia es una medida de la diferencia de una característica que depende del tiempo que representa rasgos de las primeras expresiones de voz y una característica que depende del tiempo correspondiente que representa rasgos de la segunda expresión de voz, cuando una característica que depende del tiempo de una expresión de voz es una característica que depende del tiempo de un único rasgo o bien una combinación de varios rasgos.
Para dar un ejemplo, se consideran los dos rasgos F1 y F2. F11 es el primer rasgo de la primera expresión de voz y F12 es el primer rasgo de la segunda expresión de voz. F21 es el segundo rasgo de la primera expresión de voz y F22 es el segundo rasgo de la segunda expresión de voz. Todos estos rasgos dependen del tiempo. Los rasgos F12 y F22 han de someterse a alineamiento temporal dinámico para adaptarse mejor a F11 y F21 respectivamente. En el caso de que el rasgo F12 se someta a alineamiento temporal dinámico a la característica F11 independientemente del rasgo F21 o F22 (e independientemente de cualquier otro rasgo) entonces cada rasgo se considera que es, en sí mismo, una característica. Los dos rasgos F1 y F2, en otro procedimiento, pueden someterse a alineamiento temporal conjuntamente. Esto significa que la deformación en el eje de tiempo (estiramiento o compresión del rasgo en partes del eje de tiempo) tiene que realizarse igualmente para ambos rasgos F1 y F2. El cálculo de la distancia entre F11 y F12 por una parte y F21 y F22 por otra parte se utiliza para que el alineamiento temporal dinámico tenga en cuenta ambos pares. Con las fórmulas de distancia mencionadas anteriormente las distancias de ambos rasgosse calculan y, por ejemplo, se suman. Éste es un ejemplo de una combinación de dos rasgos que forman, de ese modo, una característica. De la misma manera, pueden combinarse tres o más rasgos en una característica.
El alineamiento temporal dinámico puede llevarse a cabo varias veces teniendo en cuenta una combinación diferente de rasgos (características) o rasgos individuales, que son características. Cada cálculo del alineamiento temporal dinámico puede dar un alineamiento temporal diferente. Por ejemplo, para un rasgo F1 puede obtenerse un alineamiento temporal diferente entonces que para el rasgo F2 o para la combinación del rasgo F1 con F2. Pueden utilizarse también individualmente uno o más rasgos como una característica en sí misma y también pueden utilizarse en combinación con otro rasgo para formar una característica. Por ejemplo, el rasgo F1 puede utilizarse como una característica y F1 y F2 pueden combinarse para formar una característica.
En la etapa 203 se evalúa o se calcula una medida de la distancia total. La medida de la distancia total es una medida de la diferencia entre la primera expresión de voz de la muestra de texto determinada y la segunda expresión de voz de dicha muestra de texto determinada donde la medida de la distancia total se calcula en base a uno o más pares de dichas características que dependen del tiempo. Un par de características que dependen del tiempo está compuesto por una característica que depende del tiempo de la primera expresión de voz y de una característica que depende del tiempo (202) por alineamiento temporal dinámico de la segunda expresión de voz. (El par de características que dependen del tiempo también puede estar compuesto por una característica que depende del tiempo por alineamiento temporal dinámico de la primera expresión de voz y de una característica que depende del tiempo de la segunda expresión de voz, o el par de características que dependen del tiempo puede estar compuesto también por una característica que depende del tiempo por alineamiento temporal dinámico de la primera expresión de voz y de una característica que depende del tiempo por alineamiento temporal dinámico de la segunda expresión de voz). Después, el procedimiento termina en la etapa 299. En lugar de tomar el rasgo/característica de la segunda expresión de voz en la versión por alineamiento temporal dinámico, también puede tenerse en cuenta el (los) de la primera expresión de voz.
Además, los resultados de los cálculos de distancias realizadas durante el alineamiento temporal dinámico pueden utilizarse para determinar la distancia total si es posible.
El alineamiento temporal dinámico puede incluir relaciones lineales entre el eje de tiempo original y el eje de tiempo deformado. La relación puede ser parcialmente lineal o puede ser cualquier función monótonamente creciente.
La figura 3 muestra un diagrama de flujo que representa un procedimiento para validar una persona que habla o detectar una falsificación cuando se comparan expresiones de voz. El procedimiento comienza en la etapa 300. En la etapa 301, se obtiene una primera expresión de voz. Puede haberse grabado previamente una primera expresión de voz (por ejemplo, en una sesión de inscripción o en una solicitud anterior para decir la expresión de voz) y puede obtenerse a partir de, por ejemplo, un almacén de datos o una memoria. En la etapa 302, se requiere una segunda expresión de voz de una persona que habla, y en la etapa 303 se recibe la segunda expresión de voz de dicha persona que habla. Entonces, en la etapa 304, la primera expresión de voz se compara con la segunda expresión de voz. En base a la comparación de la etapa 304, la persona que habla es validada en la etapa 305 si la primera expresión de voz coincide bien con la segunda expresión de voz. De lo contrario, si la primera expresión de voz no coincide bien con la segunda expresión de voz, se concluye que la segunda expresión de voz es el resultado de una falsificación, tal como una falsificación por cortar y pegar, en la etapa 306. Después de la etapa 305 ó 306, el procedimiento termina en la etapa 399.
El procedimiento mencionado anteriormente es solamente un ejemplo de cómo se puede emplearse la comparación de las expresiones de voz para una aplicación. Hay muchas otras posibilidades de aplicaciones posibles, tales como emplear la comparación de las expresiones de voz con el fin de detectar que la persona que habla de la segunda expresión de voz no corresponde con la persona que habla de la primera expresión de voz, por ejemplo.
El procedimiento descrito puede formar parte de la prueba pasiva de falsificación que se describe en la solicitud mencionada anteriormente PCT/EP2008/010478 o PCT/EP2009/004649.

Claims (6)

  1. REIVINDICACIONES
    1. Procedimiento para comparar expresiones de voz, comprendiendo el procedimiento las etapas de:
    extraer una pluralidad de rasgos (201) de una primera expresión de voz de una muestra de texto determinada y extraer una pluralidad de rasgos (201) de una segunda expresión de voz de dicha muestra de texto determinada, en el que cada rasgo se extrae en función del tiempo, y en el que cada rasgo de la segunda expresión de voz corresponde a un rasgo de la primera expresión de voz;
    aplicar alineamiento temporal dinámico (202) a por lo menos dos características que dependen del tiempo de la primera y/o la segunda expresión de voz minimizando una o más medidas de distancia, en el que una medida de distancia es una medida de la diferencia de una característica que depende del tiempo de la primera expresión de voz y una característica que depende del tiempo correspondiente de la segunda expresión de voz;
    calcular una medida de distancia total (203), en el que la medida de la distancia total es una medida de la diferencia entre la primera expresión de voz de la muestra de texto determinada y la segunda expresión de voz de dicha muestra de texto determinada, en el que la medida de la distancia total se calcula (203) en base a una pluralidad de pares de características que dependen del tiempo, y en el que un par de características que dependen del tiempo está compuesto por una característica que depende del tiempo de la primera o la segunda expresión de voz y de una característica que depende del tiempo (202) por alineamiento temporal dinámico respectivamente de la segunda
    o la primera expresión de voz, o en el que un par de características que dependen del tiempo está compuesto por una característica que depende del tiempo (202) por alineamiento temporal dinámico de la primera expresión de voz y una característica que depende del tiempo (202) por alineamiento temporal dinámico de la segunda expresión de voz; y
    en el que por lo menos una característica que depende del tiempo es una característica de un único rasgo y por lo menos una otra característica que depende del tiempo es una característica de una combinación de una pluralidad de rasgos (4) a los que se aplica el mismo alineamiento temporal dinámico (202),
    en el que la primera expresión de voz ha sido grabada previamente, y en el que la segunda expresión de voz se recibe (302) de una persona que habla, a petición (303), y
    en el que la medida de la distancia total se emplea para
    -
    detectar que la segunda expresión de voz es el resultado de una falsificación por cortar y pegar (306) si la primera expresión de voz no coincide bien con la segunda expresión de voz, y
    -
    validar a la persona que habla si la primera expresión de voz coincide bien con la segunda expresión de voz.
  2. 2. Procedimiento según la reivindicación 1, caracterizado por el hecho de que la pluralidad de rasgos comprende uno o más de los siguientes rasgos:
    el tono o una función del mismo tal como el logPitch, donde logPitch es el logaritmo del tono,
    el primer formante o una función del mismo tal como logF1, donde logF1 es el logaritmo del primer formante,
    el segundo formante o una función del mismo tal como logF2, donde logF2 es el logaritmo del segundo formante,
    la energía o una función de la misma tal como logE, donde logE es el logaritmo de la energía,
    C1 o una función del mismo, donde C1 es la energía de baja frecuencia dividida por la energía de alta frecuencia,
    y derivadas temporales de cualquiera de los rasgos anteriores tales como la derivada temporal de logPitch, logF1, logF2, logE y C1.
  3. 3. Procedimiento según una de las reivindicaciones 1 a 2, caracterizado por el hecho de que una medida de la distancia de alineamiento temporal dinámico se define como una distancia euclidiana, una distancia de Mahalanobis
    o una distancia coseno.
  4. 4.
    Procedimiento según una de las reivindicaciones 1 a 3, caracterizado por el hecho de que la medida de la distancia total se define como una distancia euclidiana, una distancia de Mahalanobis o una distancia coseno.
  5. 5.
    Procedimiento según una de las reivindicaciones 1 a 4, caracterizado por el hecho de que se calcula una pluralidad de medidas de distancia total (203), y en el que la comparación de la primera expresión de voz con la segunda expresión de voz se basa en la pluralidad de medidas de distancia total seleccionando una o más medidas de distancia total de la pluralidad de medidas de distancia total y/o combinando por lo menos dos medidas de
    5 distancia total.
  6. 6. Medio informático que comprende instrucciones ejecutables por un ordenador para realizar cualquiera de los procedimientos de las reivindicaciones 1 a 5.
    10 7. Aparato que está configurado para realizar cualquiera de los procedimientos de las reivindicaciones 1 a 5.
ES09771309.3T 2008-12-10 2009-12-10 Detección de falsificación por cortar y pegar por alineamiento temporal dinámico Active ES2440646T3 (es)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
PCT/EP2008/010478 WO2010066269A1 (en) 2008-12-10 2008-12-10 Method for verifying the identify of a speaker and related computer readable medium and computer
WOPCT/EP2008/010478 2008-12-10
WOPCT/EP2009/004649 2009-06-26
PCT/EP2009/004649 WO2010066310A1 (en) 2008-12-10 2009-06-26 Method for verifying the identity of a speaker, system therefore and computer readable medium
PCT/EP2009/008851 WO2010066435A1 (en) 2008-12-10 2009-12-10 Cut and paste spoofing detection using dynamic time wraping

Publications (1)

Publication Number Publication Date
ES2440646T3 true ES2440646T3 (es) 2014-01-29

Family

ID=40627463

Family Applications (2)

Application Number Title Priority Date Filing Date
ES08875076.5T Active ES2600227T3 (es) 2008-12-10 2008-12-10 Procedimiento para verificar la identidad de un orador y medio legible por ordenador y ordenador relacionados
ES09771309.3T Active ES2440646T3 (es) 2008-12-10 2009-12-10 Detección de falsificación por cortar y pegar por alineamiento temporal dinámico

Family Applications Before (1)

Application Number Title Priority Date Filing Date
ES08875076.5T Active ES2600227T3 (es) 2008-12-10 2008-12-10 Procedimiento para verificar la identidad de un orador y medio legible por ordenador y ordenador relacionados

Country Status (5)

Country Link
US (3) US8762149B2 (es)
EP (1) EP2364495B1 (es)
DK (2) DK2364495T3 (es)
ES (2) ES2600227T3 (es)
WO (3) WO2010066269A1 (es)

Families Citing this family (72)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9767806B2 (en) 2013-09-24 2017-09-19 Cirrus Logic International Semiconductor Ltd. Anti-spoofing
ES2600227T3 (es) * 2008-12-10 2017-02-07 Agnitio S.L. Procedimiento para verificar la identidad de un orador y medio legible por ordenador y ordenador relacionados
US8930182B2 (en) * 2011-03-17 2015-01-06 International Business Machines Corporation Voice transformation with encoded information
US20130006626A1 (en) * 2011-06-29 2013-01-03 International Business Machines Corporation Voice-based telecommunication login
US10008206B2 (en) 2011-12-23 2018-06-26 National Ict Australia Limited Verifying a user
US8744995B1 (en) 2012-07-30 2014-06-03 Google Inc. Alias disambiguation
US8571865B1 (en) * 2012-08-10 2013-10-29 Google Inc. Inference-aided speaker recognition
US8520807B1 (en) 2012-08-10 2013-08-27 Google Inc. Phonetically unique communication identifiers
US8583750B1 (en) 2012-08-10 2013-11-12 Google Inc. Inferring identity of intended communication recipient
US11539525B2 (en) * 2018-07-24 2022-12-27 Royal Bank Of Canada Systems and methods for secure tokenized credentials
US9837078B2 (en) * 2012-11-09 2017-12-05 Mattersight Corporation Methods and apparatus for identifying fraudulent callers
KR20140076056A (ko) * 2012-12-12 2014-06-20 한국전자통신연구원 음성 기반 캡차 방법 및 장치
US9064495B1 (en) * 2013-05-07 2015-06-23 Amazon Technologies, Inc. Measurement of user perceived latency in a cloud based speech application
CN104219195B (zh) * 2013-05-29 2018-05-22 腾讯科技(深圳)有限公司 身份校验方法、装置及系统
CN104217149B (zh) * 2013-05-31 2017-05-24 国际商业机器公司 基于语音的生物认证方法及设备
EP2860706A3 (en) * 2013-09-24 2015-08-12 Agnitio S.L. Anti-spoofing
US9646613B2 (en) * 2013-11-29 2017-05-09 Daon Holdings Limited Methods and systems for splitting a digital signal
EP2897076B8 (en) 2014-01-17 2018-02-07 Cirrus Logic International Semiconductor Ltd. Tamper-resistant element for use in speaker recognition
DE102014002207A1 (de) * 2014-02-20 2015-08-20 Friedrich Kisters Verfahren und Vorrichtung zur Identifikation oder Authentifikation einer Person und/oder eines Gegenstandes durch dynamische akustische Sicherheitsinformationen
NL2012300C2 (en) * 2014-02-21 2015-08-25 Novolanguage B V Automated audio optical system for identity authentication.
US10008208B2 (en) * 2014-09-18 2018-06-26 Nuance Communications, Inc. Method and apparatus for performing speaker recognition
EP3363151A4 (en) * 2015-10-15 2019-06-05 Nokia Technologies OY APPARATUS, METHOD AND COMPUTER PROGRAM PRODUCT FOR AUTHENTICATION
JP6523974B2 (ja) * 2016-01-05 2019-06-05 株式会社東芝 コミュニケーション支援装置、コミュニケーション支援方法、および、プログラム
GB2551209B (en) * 2016-06-06 2019-12-04 Cirrus Logic Int Semiconductor Ltd Voice user interface
GB2552721A (en) 2016-08-03 2018-02-07 Cirrus Logic Int Semiconductor Ltd Methods and apparatus for authentication in an electronic device
GB2545534B (en) * 2016-08-03 2019-11-06 Cirrus Logic Int Semiconductor Ltd Methods and apparatus for authentication in an electronic device
GB2555532B (en) * 2016-08-03 2019-11-06 Cirrus Logic Int Semiconductor Ltd Methods and apparatus for authentication in an electronic device
US9824692B1 (en) 2016-09-12 2017-11-21 Pindrop Security, Inc. End-to-end speaker recognition using deep neural network
US10325601B2 (en) 2016-09-19 2019-06-18 Pindrop Security, Inc. Speaker recognition in the call center
AU2017327003B2 (en) 2016-09-19 2019-05-23 Pindrop Security, Inc. Channel-compensated low-level features for speaker recognition
GB2555660B (en) 2016-11-07 2019-12-04 Cirrus Logic Int Semiconductor Ltd Methods and apparatus for authentication in an electronic device
WO2018126338A1 (en) * 2017-01-03 2018-07-12 Nokia Technologies Oy Apparatus, method and computer program product for authentication
US10397398B2 (en) 2017-01-17 2019-08-27 Pindrop Security, Inc. Authentication using DTMF tones
US10464530B2 (en) * 2017-01-17 2019-11-05 Nio Usa, Inc. Voice biometric pre-purchase enrollment for autonomous vehicles
US10083696B1 (en) 2017-03-07 2018-09-25 Daon Holdings Limited Methods and systems for determining user liveness
US10223248B2 (en) * 2017-05-15 2019-03-05 Bank Of America Corporation Conducting automated software testing using centralized controller and distributed test host servers
US10489287B2 (en) 2017-05-15 2019-11-26 Bank Of America Corporation Conducting automated software testing using centralized controller and distributed test host servers
GB2578386B (en) 2017-06-27 2021-12-01 Cirrus Logic Int Semiconductor Ltd Detection of replay attack
GB2563953A (en) 2017-06-28 2019-01-02 Cirrus Logic Int Semiconductor Ltd Detection of replay attack
GB201713697D0 (en) 2017-06-28 2017-10-11 Cirrus Logic Int Semiconductor Ltd Magnetic detection of replay attack
GB201801528D0 (en) 2017-07-07 2018-03-14 Cirrus Logic Int Semiconductor Ltd Method, apparatus and systems for biometric processes
GB201801532D0 (en) 2017-07-07 2018-03-14 Cirrus Logic Int Semiconductor Ltd Methods, apparatus and systems for audio playback
GB201801526D0 (en) 2017-07-07 2018-03-14 Cirrus Logic Int Semiconductor Ltd Methods, apparatus and systems for authentication
GB201801527D0 (en) 2017-07-07 2018-03-14 Cirrus Logic Int Semiconductor Ltd Method, apparatus and systems for biometric processes
GB201801530D0 (en) 2017-07-07 2018-03-14 Cirrus Logic Int Semiconductor Ltd Methods, apparatus and systems for authentication
GB2567503A (en) 2017-10-13 2019-04-17 Cirrus Logic Int Semiconductor Ltd Analysing speech signals
GB201801661D0 (en) 2017-10-13 2018-03-21 Cirrus Logic International Uk Ltd Detection of liveness
GB201801874D0 (en) 2017-10-13 2018-03-21 Cirrus Logic Int Semiconductor Ltd Improving robustness of speech processing system against ultrasound and dolphin attacks
GB201801664D0 (en) 2017-10-13 2018-03-21 Cirrus Logic Int Semiconductor Ltd Detection of liveness
GB201804843D0 (en) 2017-11-14 2018-05-09 Cirrus Logic Int Semiconductor Ltd Detection of replay attack
GB201803570D0 (en) 2017-10-13 2018-04-18 Cirrus Logic Int Semiconductor Ltd Detection of replay attack
GB201801663D0 (en) 2017-10-13 2018-03-21 Cirrus Logic Int Semiconductor Ltd Detection of liveness
GB201801659D0 (en) 2017-11-14 2018-03-21 Cirrus Logic Int Semiconductor Ltd Detection of loudspeaker playback
US11264037B2 (en) 2018-01-23 2022-03-01 Cirrus Logic, Inc. Speaker identification
US11475899B2 (en) 2018-01-23 2022-10-18 Cirrus Logic, Inc. Speaker identification
US11735189B2 (en) 2018-01-23 2023-08-22 Cirrus Logic, Inc. Speaker identification
EP3537435A1 (en) * 2018-03-09 2019-09-11 VoicePIN.com Sp. z o.o. Method of verifying the authenticity of a voice sample
US10733996B2 (en) * 2018-03-30 2020-08-04 Qualcomm Incorporated User authentication
US10720166B2 (en) * 2018-04-09 2020-07-21 Synaptics Incorporated Voice biometrics systems and methods
US10529356B2 (en) 2018-05-15 2020-01-07 Cirrus Logic, Inc. Detecting unwanted audio signal components by comparing signals processed with differing linearity
US10818296B2 (en) * 2018-06-21 2020-10-27 Intel Corporation Method and system of robust speaker recognition activation
US10692490B2 (en) 2018-07-31 2020-06-23 Cirrus Logic, Inc. Detection of replay attack
CN109215680B (zh) * 2018-08-16 2020-06-30 公安部第三研究所 一种基于卷积神经网络的语音还原方法
US10915614B2 (en) 2018-08-31 2021-02-09 Cirrus Logic, Inc. Biometric authentication
US11037574B2 (en) 2018-09-05 2021-06-15 Cirrus Logic, Inc. Speaker recognition and speaker change detection
CN109918891B (zh) * 2019-01-24 2023-11-21 平安科技(深圳)有限公司 用户验证方法、装置、计算机设备及存储介质
US11019201B2 (en) 2019-02-06 2021-05-25 Pindrop Security, Inc. Systems and methods of gateway detection in a telephone network
WO2020198354A1 (en) 2019-03-25 2020-10-01 Pindrop Security, Inc. Detection of calls from voice assistants
US12015637B2 (en) * 2019-04-08 2024-06-18 Pindrop Security, Inc. Systems and methods for end-to-end architectures for voice spoofing detection
KR102321806B1 (ko) * 2019-08-27 2021-11-05 엘지전자 주식회사 음성신호 및 텍스트가 매칭된 데이터베이스의 구축방법 및 이를 위한 시스템, 이를 기록한 컴퓨터 판독 가능한 기록매체
WO2023002694A1 (ja) * 2021-07-20 2023-01-26 ソニーグループ株式会社 情報処理装置および情報処理方法
US12592232B2 (en) 2023-04-28 2026-03-31 Bank Of America Corporation Systems, methods, and apparatuses for detecting AI masking using persistent response testing in an electronic environment

Family Cites Families (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3700815A (en) * 1971-04-20 1972-10-24 Bell Telephone Labor Inc Automatic speaker verification by non-linear time alignment of acoustic parameters
US4534056A (en) * 1982-08-26 1985-08-06 Westinghouse Electric Corp. Voice-recognition elevator security system
US5548647A (en) * 1987-04-03 1996-08-20 Texas Instruments Incorporated Fixed text speaker verification method and apparatus
GB9021489D0 (en) * 1990-10-03 1990-11-14 Ensigma Ltd Methods and apparatus for verifying the originator of a sequence of operations
US5265191A (en) * 1991-09-17 1993-11-23 At&T Bell Laboratories Technique for voice-based security systems
US5450524A (en) * 1992-09-29 1995-09-12 At&T Corp. Password verification system based on a difference of scores
US5806040A (en) * 1994-01-04 1998-09-08 Itt Corporation Speed controlled telephone credit card verification system
IL113204A (en) * 1995-03-30 1999-03-12 Advanced Recognition Tech Pattern recognition system
US6067517A (en) * 1996-02-02 2000-05-23 International Business Machines Corporation Transcription of speech data with segments from acoustically dissimilar environments
US5752231A (en) * 1996-02-12 1998-05-12 Texas Instruments Incorporated Method and system for performing speaker verification on a spoken utterance
US6539352B1 (en) * 1996-11-22 2003-03-25 Manish Sharma Subword-based speaker verification with multiple-classifier score fusion weight and threshold adaptation
JP2991144B2 (ja) * 1997-01-29 1999-12-20 日本電気株式会社 話者認識装置
EP0896712A4 (en) * 1997-01-31 2000-01-26 T Netix Inc SYSTEM AND METHOD FOR DISCOVERING RECORDED LANGUAGE
US5897616A (en) * 1997-06-11 1999-04-27 International Business Machines Corporation Apparatus and methods for speaker verification/identification/classification employing non-acoustic and/or acoustic models and databases
US6978238B2 (en) * 1999-07-12 2005-12-20 Charles Schwab & Co., Inc. Method and system for identifying a user by voice
US7016833B2 (en) * 2000-11-21 2006-03-21 The Regents Of The University Of California Speaker verification system using acoustic data and non-acoustic data
US6898568B2 (en) * 2001-07-13 2005-05-24 Innomedia Pte Ltd Speaker verification utilizing compressed audio formants
US20030200447A1 (en) * 2001-08-17 2003-10-23 Lotta Almroth Identification system
DE10150108B4 (de) * 2001-10-11 2004-03-11 Siemens Ag Fortwährende Sprecherauthentifizierung
US7050973B2 (en) * 2002-04-22 2006-05-23 Intel Corporation Speaker recognition using dynamic time warp template spotting
GB2388947A (en) * 2002-05-22 2003-11-26 Domain Dynamics Ltd Method of voice authentication
US20040172562A1 (en) * 2003-03-01 2004-09-02 Vladimir Berger System and method for identity recognition of an individual for enabling an access to a secured system
IL154733A0 (en) * 2003-03-04 2003-10-31 Financial transaction authorization apparatus and method
US7212613B2 (en) * 2003-09-18 2007-05-01 International Business Machines Corporation System and method for telephonic voice authentication
KR20060090821A (ko) * 2003-09-30 2006-08-16 코닌클리케 필립스 일렉트로닉스 엔.브이. 생체 측정 임계값을 적응적으로 설정하는 시스템 및 방법
JP2005202014A (ja) * 2004-01-14 2005-07-28 Sony Corp 音声信号処理装置、音声信号処理方法および音声信号処理プログラム
US8255223B2 (en) * 2004-12-03 2012-08-28 Microsoft Corporation User authentication by combining speaker verification and reverse turing test
KR100655491B1 (ko) * 2004-12-21 2006-12-11 한국전자통신연구원 음성인식 시스템에서의 2단계 발화 검증 방법 및 장치
WO2006087799A1 (ja) * 2005-02-18 2006-08-24 Fujitsu Limited 音声認証システム
US7386105B2 (en) * 2005-05-27 2008-06-10 Nice Systems Ltd Method and apparatus for fraud detection
US20060293892A1 (en) * 2005-06-22 2006-12-28 Jan Pathuel Biometric control systems and associated methods of use
US7516074B2 (en) * 2005-09-01 2009-04-07 Auditude, Inc. Extraction and matching of characteristic fingerprints from audio signals
CN101051463B (zh) * 2006-04-06 2012-07-11 株式会社东芝 说话人认证的验证方法及装置
CN101051464A (zh) * 2006-04-06 2007-10-10 株式会社东芝 说话人认证的注册和验证方法及装置
WO2008033095A1 (en) * 2006-09-15 2008-03-20 Agency For Science, Technology And Research Apparatus and method for speech utterance verification
US7650281B1 (en) * 2006-10-11 2010-01-19 The U.S. Goverment as Represented By The Director, National Security Agency Method of comparing voice signals that reduces false alarms
AU2008209307B2 (en) * 2007-01-22 2010-12-02 Auraya Pty Ltd Voice recognition system and methods
KR20250099420A (ko) * 2007-09-24 2025-07-01 애플 인크. 전자 장치 내의 내장형 인증 시스템들
ES2600227T3 (es) * 2008-12-10 2017-02-07 Agnitio S.L. Procedimiento para verificar la identidad de un orador y medio legible por ordenador y ordenador relacionados
US9318114B2 (en) * 2010-11-24 2016-04-19 At&T Intellectual Property I, L.P. System and method for generating challenge utterances for speaker verification

Also Published As

Publication number Publication date
WO2010066435A1 (en) 2010-06-17
DK2364495T3 (en) 2017-01-16
US9002706B2 (en) 2015-04-07
US20120173239A1 (en) 2012-07-05
DK2364496T3 (da) 2014-01-13
US8762149B2 (en) 2014-06-24
EP2364495B1 (en) 2016-10-12
WO2010066310A1 (en) 2010-06-17
US20110246198A1 (en) 2011-10-06
EP2364495A1 (en) 2011-09-14
WO2010066269A1 (en) 2010-06-17
ES2600227T3 (es) 2017-02-07
US20140081638A1 (en) 2014-03-20
US9792912B2 (en) 2017-10-17

Similar Documents

Publication Publication Date Title
ES2440646T3 (es) Detección de falsificación por cortar y pegar por alineamiento temporal dinámico
Chen et al. Towards understanding and mitigating audio adversarial examples for speaker recognition
US20210125619A1 (en) Authenticating a user
Alegre et al. On the vulnerability of automatic speaker recognition to spoofing attacks with artificial signals
CN104221079B (zh) 利用频谱特性进行声音分析的改进的梅尔滤波器组结构
US7603275B2 (en) System, method and computer program product for verifying an identity using voiced to unvoiced classifiers
EP2120232A1 (en) A random voice print cipher certification system, random voice print cipher lock and generating method thereof
DE60309176D1 (de) Biometrisches authentifizierungssystem
Heeringa et al. Measuring Norwegian dialect distances using acoustic features
Sriskandaraja et al. Investigating the use of scattering coefficients for replay attack detection
Lehner et al. Improving voice activity detection in movies.
Wang et al. Tampering Detection Scheme for Speech Signals using Formant Enhancement based Watermarking.
Impedovo et al. An Investigation on Voice Mimicry Attacks to a Speaker Recognition System.
CN116705063B (zh) 一种基于流形测度的多模型融合的语音鉴伪识别方法
Pati et al. Speaker information from subband energies of linear prediction residual
Fang et al. Voice spoofing detection with raw waveform based on Dual Path Res2net
ES2286943B1 (es) Procedimiento de identificacion de voz.
Yang et al. User verification based on customized sentence reading
Meenakshi et al. Automatic gender classification using the mel frequency cepstrum of neutral and whispered speech: A comparative study
Wang Securing Voice Processing Systems From Malicious Audio Attacks
Tiong et al. ECG biometric verification system: An i-vector to overcome variability factors
Doherty Evaluation of selected acoustic parameters for use in speaker identification
EP0856835A2 (en) Speaker recognition device
BR102015017556B1 (pt) Processo de detecção automática de áudio e fala ao vivo e reproduzidos por meio de alto-falante
Long et al. Non-negative matrix factorization based discriminative features for speaker verification