ES2380643T3 - Dispositivo para determinar información para la alineación temporal de dos señales de información - Google Patents
Dispositivo para determinar información para la alineación temporal de dos señales de información Download PDFInfo
- Publication number
- ES2380643T3 ES2380643T3 ES07818341T ES07818341T ES2380643T3 ES 2380643 T3 ES2380643 T3 ES 2380643T3 ES 07818341 T ES07818341 T ES 07818341T ES 07818341 T ES07818341 T ES 07818341T ES 2380643 T3 ES2380643 T3 ES 2380643T3
- Authority
- ES
- Spain
- Prior art keywords
- characteristic
- information
- ref
- evolution
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000002123 temporal effect Effects 0.000 title claims abstract description 52
- 238000005070 sampling Methods 0.000 claims abstract description 58
- 238000000034 method Methods 0.000 claims description 45
- 238000005314 correlation function Methods 0.000 claims description 21
- 238000000605 extraction Methods 0.000 claims description 15
- 230000005540 biological transmission Effects 0.000 claims description 14
- 238000011156 evaluation Methods 0.000 claims description 10
- 239000006185 dispersion Substances 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 7
- 239000000284 extract Substances 0.000 claims description 5
- 239000013598 vector Substances 0.000 description 55
- 230000000875 corresponding effect Effects 0.000 description 12
- 238000005259 measurement Methods 0.000 description 11
- 238000012360 testing method Methods 0.000 description 8
- 238000006073 displacement reaction Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 4
- 238000001303 quality assessment method Methods 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 230000006978 adaptation Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000012074 hearing test Methods 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N17/00—Diagnosis, testing or measuring for television systems or their details
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/69—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N17/00—Diagnosis, testing or measuring for television systems or their details
- H04N17/004—Diagnosis, testing or measuring for television systems or their details for digital television systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/12—Speech classification or search using dynamic programming techniques, e.g. dynamic time warping [DTW]
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Image Analysis (AREA)
- Position Fixing By Use Of Radio Waves (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Circuits Of Receivers In General (AREA)
Abstract
Dispositivo (110) para determinar información para la alineación temporal de una primera señal de información (sdeg(t)) y de una segunda señal de información (sref(t)), que presentan para instantes de muestreo sucesivos en cada caso uno o varios valores de información, con medios (120) de extracción de características para la extracción de características (Mi,j,deg) de una pluralidad de características por cada instante de muestreo o por cada subsecuencia de instantes de muestreo de los instantes de muestreo sucesivos a partir de la primera señal de información (sdeg(t)), para obtener por cada característica una primera evolución de característica (Mj,deg), que está subdividida en una secuencia de ventanas de tiempo de comparación, y para extraer las características (Mi,j,ref) por cada instante de muestreo o por cada subsecuencia de instantes de muestreo de los instantes de muestreo sucesivos a partir de la segunda señal de información (sref(t)), para obtener por cada característica una segunda evolución de característica (Mj,ref), estando configurados los medios (120) de extracción de características para seleccionar por cada ventana de tiempo de comparación una característica con mayor probabilidad de éxito de búsqueda a partir de las características, que presenta propiedades de característica que, en comparación con propiedades de característica de las demás características, indican una mayor probabilidad de éxito de búsqueda en la búsqueda de la primera evolución de característica (Mj,deg; Mj,ref) en la respectiva ventana de tiempo de comparación en la segunda evolución de característica, y concretamente con o bien una amplitud de dispersión de la característica o bien una magnitud de un máximo de una medida de similitud entre la primera y la segunda evolución de característica de la característica como una medida de la probabilidad de éxito de búsqueda de la respectiva característica; y medios (130) para determinar la información para la alineación temporal basándose en similitudes entre la primera (Mj,deg) y la segunda evolución de característica (Mj,ref) de la característica con mayor probabilidad de éxito de búsqueda mediante una búsqueda de la primera evolución de característica de la característica con mayor probabilidad de éxito de búsqueda en cada una de la pluralidad de ventanas de tiempo de comparación en la segunda evolución de característica de la característica con mayor probabilidad de éxito de búsqueda.
Description
Dispositivo para determinar información para la alineación temporal de dos señales de información
La presente invención se refiere a un concepto para determinar información para la alineación temporal de dos señales de información, en particular de una señal de información perturbada y una señal de información no perturbada, que por ejemplo puede utilizarse para realizar denominadas mediciones objetivas para la evaluación de calidad de señales.
Para la valoración de medición de la calidad de señales de audio o vídeo codificadas, en la actualidad se utilizan procedimientos de medición basados en percepción (perceptual measurement) normalizados. Procedimientos conocidos son por ejemplo el denominado procedimiento PESQ (PESQ = Perceptual Evaluation of Speech Quality = evaluación perceptual de calidad de voz), que se describe en el documento de normalización ITU-T P.862. Otro procedimiento de medición conocido para la evaluación de calidad de señales de audio es el denominado procedimiento PEAQ (PEAQ = objective measurement of PErceived Audio Quality = medición objetiva de la calidad de audio percibida) y se representa en el documento de normalización ITU-RBS.1387-1. Un procedimiento de medición para la evaluación de señales de vídeo se describe en A.P. Hekstra et al., “PVQM - A perceptual video quality measure”, en Signal Processing: Image Communications, 2002, vol. 17, págs. 781-798, Elsevier.
Estos procedimientos u otros procedimientos para la evaluación de calidad de señales de audio o de vídeo tienen en común que una señal que va a someterse a prueba o que va a evaluarse, que por regla general es la señal de salida de un sistema o red o en general de un elemento que va a examinarse, se compara con una señal original o también de referencia, que por regla general es la señal de entrada en el elemento que va a examinarse.
Para la valoración o evaluación de un determinado procedimiento de transmisión o codificador, en el pasado se han llevado a cabo pruebas con personas de prueba. Según la aplicación se trata en este caso de por ejemplo de pruebas de audición para someter a prueba procedimientos de codificación digitales con adaptación auditiva o pruebas visuales para someter a prueba procedimientos de codificación de vídeo digitales. Aunque estas pruebas proporcionan de media resultados relativamente fiables, aún así sigue habiendo un componente subjetivo. Además, estas pruebas subjetivas con un determinado número de personas de prueba son relativamente complejas y por tanto relativamente caras. Por ello se desarrollaron procedimientos de medición objetivos para la valoración de la calidad de señales de voz, audio o vídeo codificadas.
Una parte de una configuración de un procedimiento de medición objetivo de este tipo se representa en la figura 7. La señal original o la señal de referencia Sref(t), 104 se alimenta a un sistema 100 con una característica de transmisión H. En la salida del sistema 100 se proporciona una señal Sdeg(t), 102, que presenta características o propiedades de señal modificadas por el sistema 100 con respecto a la señal original sref(t). La primera señal de información sdeg(t) y la segunda señal de información sref(t)se suministran a un bloque 110, para alinear temporalmente o igualar temporalmente entre sí las dos señales. De este modo puede garantizarse que por ejemplo en el caso de señales de vídeo sólo se comparen entre sí aquellas imágenes o fotogramas, que se corresponden entre sí temporalmente. El orden o alineación temporal de las dos señales podría estar perturbado por ejemplo por un retardo, una pérdida de fotogramas o una repetición de fotogramas. Para una evaluación de calidad de la señal degradada o perturbada sdeg(t) es importante que la alineación temporal con sref(t) se realice de manera muy precisa y exacta, porque una comparación posterior de dos fotogramas no correspondientes de sdeg(t) y sref(t) lleva en general a una subestimación de la calidad de vídeo de la señal perturbada sdeg(t). Una correlación de una evaluación de calidad objetiva de este tipo con una evaluación de calidad subjetiva mediante por ejemplo espectadores humanos sería por consiguiente reducida.
Los procedimientos de transmisión modernos para, por ejemplo, señales de vídeo, audio o voz, modifican a menudo la estructura temporal de la información contenida en un flujo de datos. Esto, en parte, puede ser intencionado, sin embargo con mayor frecuencia este comportamiento se origina por perturbaciones de transmisión. Además las señales se perturban a menudo por la transmisión y codificación fuente. Numerosas aplicaciones por ejemplo de la técnica de medición requieren una comparación de la señal transmitida sdeg(t) con la señal no perturbada sref(t). Como ya se describió anteriormente, esta comparación requiere sin embargo la asociación temporal correcta de los segmentos de señal individuales de la señal no perturbada sref(t) y la señal perturbada sdeg(t). En el caso de perturbaciones reducidas y flujos de información estructurados de manera relativamente sencilla, como por ejemplo señales de voz, pueden aplicarse métodos simples basándose en una correlación cruzada directa de las dos señales. En el caso de señales más complejas, como por ejemplo señales de vídeo, y perturbaciones importantes, tal como aparecen por ejemplo en la radiotelefonía móvil o en la telefonía por Internet, estos procedimientos no pueden aplicarse de manera fiable y además exigen un esfuerzo de cálculo importante.
Rix et al., “PESQ - the new ITU standard for end-to-end speech quality assessment” proporciona una visión global sobre diferentes procedimientos para la medición de calidad de señales degradadas en comparación con una señal original. A este respecto se indica que es necesaria una alineación temporal entre señal degradada y señal original para un análisis de calidad automatizado. Además se describe que se filtran ambas señales y que a continuación puede tener lugar una estimación de retardo temporal basándose en una envolvente.
Por tanto, el objetivo de la presente invención consiste en crear un concepto mejorado para la asociación temporal de segmentos de señal individuales de una primera señal de información con respecto a una segunda señal de información.
Este objetivo se soluciona mediante un dispositivo para determinar información para la alineación temporal según la reivindicación 1, un procedimiento para determinar información para la alineación temporal según la reivindicación 14 y un programa informático según la reivindicación 15.
La presente invención se basa en el conocimiento de que una asociación temporal de segmentos de señal individuales de una primera señal de información con respecto a una segunda señal de información puede realizarse de tal manera que no se examinen los propios flujos de señal de información, sino más bien características obtenidas a partir de los flujos de señal de información.
Para ello en una primera etapa los flujos de señal de información primero y segundo se descomponen en cada caso en subunidades.
En una etapa posterior cada subunidad de las señales de información primera y segunda se caracteriza en cada caso por al menos una característica. A partir de aquí se obtienen en cada caso vectores de características, representando un elemento individual de un vector de características una característica de una subunidad del flujo de señal de información. El número de elementos de un vector de características describe el número de subunidades de un flujo de señal de información. A este respecto según ejemplos de realización de la presente invención cada subunidad de un flujo de señal de información puede caracterizarse por una pluralidad de características. Para este caso se obtiene también una pluralidad de vectores de características, representando cada uno de los vectores de características otra característica de la pluralidad de subunidades de un flujo de información.
En una etapa adicional, un vector de características de la señal de información primera o perturbada se subdivide en patrones de búsqueda o ventanas de tiempo de comparación, que comprende varios instantes de muestreo o varias subsecuencias de instantes de muestreo de la señal de información perturbada. Según un ejemplo de realización de la presente invención, los patrones de búsqueda o las ventanas de tiempo de comparación pueden proporcionarse mediante la división del vector de características en segmentos equidistantes.
En una etapa adicional, según un ejemplo de realización de la presente invención se examina una similitud de los patrones de búsqueda o ventanas de tiempo de comparación de la señal de información perturbada sdeg (t) con segmentos individuales de un vector de características correspondiente de la segunda señal de información o de la señal de referencia sref(t) por medio de una correlación cruzada. La posición del máximo de la función de correlación cruzada entre el patrón de búsqueda y el vector de características determina el desplazamiento del patrón de búsqueda dentro del vector de características. Además el valor del máximo es una medida de la coincidencia o similitud del patrón de búsqueda y la ventana de tiempo de comparación o subespacio correspondiente a partir del vector de características de la señal de referencia sref (t).
En caso de que una búsqueda de un patrón de búsqueda, que por ejemplo se obtuvo a partir de un determinado vector de características de la señal de información perturbada sdeg(t), no tenga éxito, según un ejemplo de realización adicional de la presente invención puede repetirse una búsqueda de un patrón de búsqueda a partir de otro vector de características de la señal de información perturbada sdeg(t).
Según una forma de realización adicional de la presente invención, un patrón de búsqueda también puede formarse partir del vector de características de la señal de referencia sref(t) y este patrón de búsqueda puede buscarse en el vector de características de la señal de información perturbada sdeg(t).
Según un ejemplo de realización adicional de la presente invención, a la determinación de información para la alineación temporal de la primera señal de información y de la segunda señal de información le puede seguir una etapa adicional para determinar información aún más detallada para la alineación temporal, observándose a este respecto una alineación temporal dentro de la longitud de un patrón de búsqueda. Para la determinación de la información aún más detallada dentro de la longitud del patrón de búsqueda puede recurrirse a los métodos habituales, tales como por ejemplo los denominados algoritmos de coincidencia de bloques (block matching algorithm, BMA) o un método de correlación de fase.
Una ventaja de la presente invención consiste en que para la alineación temporal no se examinan las propias señales de información, sino más bien características obtenidas a partir de las señales de información. Esto significa, para señales de información complejas, una reducción de complejidad importante, con lo que puede conseguirse una ventaja en cuanto al tiempo de cálculo necesario para el examen.
Una ventaja adicional de la presente invención consiste en que mediante el uso de varias características por cada subunidad puede aumentarse adicionalmente la fiabilidad del concepto según la invención, seleccionando para cada subunidad por ejemplo la característica más adecuada en cada caso. Por tanto puede conseguirse un aumento de la exactitud, porque las características o la metainformación pueden adaptarse de manera esencialmente más específica a un planteamiento, de lo que permite una comparación directa de dos señales de información.
Ejemplos de realización preferidos de la presente invención se explican a continuación con más detalle haciendo referencia a los dibujos adjuntos. Muestran:
la figura 1, un dispositivo para determinar información para la alineación temporal de una primera señal de información y de una segunda señal de información según un ejemplo de realización de la presente invención;
la figura 2, una representación esquemática de un desarrollo para la extracción de valores de característica de una señal de información según un ejemplo de realización de la presente invención;
la figura 3, una representación esquemática para explicar la formación de un valor de característica para una señal de información de imagen según un ejemplo de realización de la presente invención;
la figura 4, una representación esquemática de una evolución de característica según un ejemplo de realización de la presente invención;
la figura 5, una representación para explicar la determinación de la información para la alineación temporal basándose en una correlación cruzada entre una primera y una segunda evolución característica según un ejemplo de realización de la presente invención;
la figura 6, un diagrama de flujo para explicar un procedimiento para determinar información para la alineación temporal de una primera señal de información y de una segunda señal de información según un ejemplo de realización de la presente invención; y
la figura 7, un diagrama de bloques para explicar una medición intrusiva, basada en referencias completas, para la valoración de calidad de una señal degradada.
Con respecto a la siguiente descripción debe tenerse en cuenta que, en los diferentes ejemplos de realización, elementos funcionales iguales o que actúan igual presentan números de referencia iguales y de este modo las descripciones de estos elementos funcionales pueden intercambiarse entre sí en los diferentes ejemplos de realización representados a continuación.
Además debe tenerse en cuenta que, a continuación, pueden intercambiarse entre sí los significados de la primera señal de información y la segunda señal de información. Por tanto, al contrario de lo que viene a continuación, la primera señal de información también podría ser la señal de referencia no perturbada sref(t), siendo por consiguiente la segunda señal de información la señal de información perturbada sdeg(t).
La figura 1 muestra un dispositivo 110 para determinar información para la alineación temporal de una primera señal 102 de información sdeg(t) y de una segunda señal 104 de información sref(t) con medios 120 de extracción de características y medios 130 para determinar la información para la alineación temporal.
La primera señal de información sdeg(t) y la segunda señal de información sref(t) se suministran a los medios 120 de extracción de características, para que los medios 120 de extracción de características puedan proporcionar al menos un valor de característica Mi,deg por cada instante de muestreo i o por cada subsecuencia i de instantes de muestreo de los instantes de muestreo sucesivos a partir de la primera señal de información sdeg(t) dentro de una primera ventana de tiempo de comparación, que comprende varios instantes de muestreo o subsecuencias. Del mismo modo, los medios 120 de extracción de características extraen al menos un valor de característica Mi,ref por cada instante de muestreo i o por cada subsecuencia i de instantes de muestreo de los instantes de muestreo sucesivos a partir de la segunda señal de información Sref(t) dentro de una segunda ventana de tiempo de comparación, que comprende varios instantes de muestreo o subsecuencias.
Según un ejemplo de realización de la presente invención, la primera señal de información sdeg(t) corresponde a una señal de información perturbada y la segunda señal de información sref(t) corresponde a una señal de información de referencia o no perturbada. Los medios 120 de extracción de características descomponen, por tanto, tanto el flujo de información no perturbado como el perturbado en subunidades Ui,ref y Ui,deg. A este respecto las subunidades pueden corresponder a instantes de muestreo o a una subsección de instantes de muestreo de instantes de muestreo sucesivos, presentando los instantes de muestreo sucesivos en cada caso uno o varios valores de información.
Si, en el caso de las señales de información, se trata por ejemplo de secuencias de vídeo, entonces una subunidad Ui,ref corresponde por ejemplo a la i-ésima imagen de la señal de referencia no perturbada sref(t), correspondiendo la i-ésima imagen al i-ésimo instante de muestreo. Tal como ya se describió anteriormente, una subunidad podría presentar sin embargo también una pluralidad de imágenes y por tanto una pluralidad de instantes de muestreo.
Si, en el caso de las dos señales de información, se trata de señales de audio (señales de música o voz), entonces una subunidad Ui,ref corresponde por ejemplo a un determinado número de muestras o valores de muestreo del flujo de audio de referencia digitalizado.
Cada subunidad Ui,xxx (“xxx” significa “deg” o “ref”) se caracteriza ahora en los medios 120 de extracción de características por al menos una característica Mi,xxx. Según un ejemplo de realización de la presente invención, los medios 120 de extracción de características extraen para cada subunidad Ui,xxx del flujo de información no perturbado o perturbado no sólo una característica, sino una pluralidad de valores de característica Mi,j, ref o Mi,j,deg. A este respecto el índice j designa la característica correspondiente de la pluralidad de valores de característica. Esta relación se explica más detalladamente por medio de la figura 2.
Para ello la figura 2 muestra esquemáticamente una sección 200 de una de las dos señales de información sdeg(t) o sref(t), que se identifica con sxxx(t). La señal de información sxxx(t) está descompuesta en una pluralidad de subunidades Ui,xxx. A este respecto una subunidad Ui,xxx corresponde en cada caso a un instante de muestreo i o bien a una subsecuencia i de instantes de muestreo, presentando instantes de muestreo sucesivos en cada caso uno o varios valores de información.
Si una subunidad Ui,xxx representada en la figura 2 corresponde por tanto en cada caso a un instante de muestreo, entonces un instante de muestreo presenta en el escenario representado en la figura 2 en cada caso cuatro valores de información. Si en cambio cada uno de los valores de información mostrados en la figura 2 corresponde exactamente a un instante de muestreo, entonces un subsegmento Ui,xxx corresponde a una subsecuencia de en cada caso cuatro instantes de muestreo en el escenario representado en la figura 2. Ha de observarse que la figura 2 sólo sirve para ilustrar el concepto según la invención y por tanto está representada de manera muy simplificada. En aplicaciones reales, como por ejemplo la evaluación de calidad de señales de vídeo, una señal de información presentará para un instante de muestreo una pluralidad de valores de información, que son necesarios por ejemplo para la representación de una imagen.
Tal como ya se describió anteriormente, las subunidades Ui,xxx individuales pueden estar asociadas en cada caso a uno
o a una pluralidad de valores de característica Mi,j,xxx. A este respecto el índice i designa la correspondiente subunidad y el índice j designa la correspondiente característica.
Según un ejemplo de realización de la presente invención, una característica puede ser por ejemplo toda la energía contenida en la subunidad Ui,xxx. Si una subunidad Ui,xxx tiene por tanto, por ejemplo, N valores de información, que presentan en cada caso una energía Ei,n,xxx (n = 1,..., N), entonces puede determinarse la energía total por cada subunidad i según
donde “xxx” significa “deg” o “ref”. Toda la energía puede ponerse evidentemente también en una forma “promediada”, dividiéndose por ejemplo por el número N de valores de información que participan. En lugar de la energía también puede usarse evidentemente en el caso de vídeos el brillo, el color, una componente de color, un contraste, una saturación o similar. En este caso, los N valores de información que participan tampoco comprenden, dado el caso, todos los píxeles de las imágenes de vídeo sino sólo una parte de los mismos, como por ejemplo una zona continua, como por ejemplo una zona rectangular. Este modo de proceder se muestra esquemáticamente a modo de ejemplo para el brillo por medio de la figura 3.
La figura 3 muestra a modo de ejemplo una representación de dos imágenes 300-1 y 300-2 digitalizadas, pudiendo adoptar los valores de información individuales de las dos imágenes sólo un valor en cada caso de 0 ó 1 (0 = blanco, 1 = negro). Si como característica o metainformación no se usa la respectiva imagen i propiamente dicha, sino en cada caso el brillo total contenido en la misma Ei,xxx, en forma promediada o no promediada, entonces se obtiene para el brillo total E1,xxx de la imagen 300-1 un valor más pequeño en comparación que para el brillo total E2,xxx de la imagen 300-2. Por tanto, las dos imágenes 300-1 y 300-2 pueden diferenciarse inequívocamente por el brillo total Ei,xxx de sus valores de información, estando representados en la figura 3 a modo de ejemplo píxeles claros, oscuros y, al revés, píxeles oscuros, blancos.
Según ejemplos de realización adicionales de la presente invención las características Mi,j,xxx también pueden ser, por ejemplo una parte de movimiento en una zona de imagen, valores de color, valores de contraste, valores de brillo o una energía en un intervalo espectral determinado, etc. Los respectivos valores de característica Mi,j,xxx pueden reunirse para todas las subunidades Ui,ref o Ui,deg en vectores de características Mi,ref = [Mi,1,ref, Mi,2,ref,..., Mi,J,ref]T o Mj,ref= [Mi,j,ref, M2,j,ref,..., MI,j,ref]T y Mi,deg=[Mi,l,deg, Mi,2,deg,...,Mi,J,deg]T o Mj,deg = [M1,j,deg, M2,j,deg,..., MI,j,deg]T, donde J significa el número de valores de característica diferentes por cada subunidad Ui,xxx e I el número de subunidades Ui,xxx. Básicamente es válido que los vectores de características Mi,xxx o Mj,xxx contienen esencialmente menos información que los datos totales de las subunidades Ui,xxx. Los vectores de características Mi,xxx y Mj,xxx también pueden reunirse en una matriz de características Mxxx, tal como se indica en la figura 2.
Un vector de características Mj,xxx se subdivide en una siguiente etapa en ventanas de tiempo de comparación o patrones de búsqueda Sj,k,xxx, pudiendo comprender el índice k varias subunidades Ui,xxx. En la representación a modo de ejemplo mostrada en la figura 2, una ventana de tiempo de comparación o un patrón de búsqueda Sj,k,xxx comprende en cada caso dos subunidades Ui,xxx. Esta representación es, no obstante, sólo a modo de ejemplo y el número realmente empleado de subunidades Ui,xxx por cada ventana de tiempo de comparación Sj,k,xxx puede seleccionarse por
lo general de manera arbitraria. Una longitud óptima de los patrones de búsqueda Sj,k,xxx depende de la aplicación concreta y de la adecuación de los vectores de características. Una posibilidad para obtener las ventanas de tiempo de comparación o los patrones de búsqueda Sj,k,xxx consiste en dividir un vector de características Mj,deg de la señal de información perturbada en segmentos equidistantes, tal como se muestra a modo de ejemplo en la figura 2. Sin embargo, según un ejemplo de realización alternativo de la presente invención puede realizarse también una división en patrones de búsqueda no equidistantes de tamaño diferente. Los patrones de búsqueda tampoco deben a este respecto ser directamente adyacentes o sucesivos, sino que también pueden superponerse. La división puede efectuarse mediante adaptación adaptativa. En particular, el vector de características Mj,xxx también puede dividirse de manera iterativa, para obtener un patrón de búsqueda Sj,k,xxx.
Tal como ya se describió anteriormente, según un ejemplo de realización de la presente invención un patrón de búsqueda o una ventana de tiempo de comparación Sj,k,deg es una parte o un subespacio de un vector de características Mj,deg. Este patrón de búsqueda se busca según un ejemplo de realización de la presente invención en el vector de características Mj,ref. Según un ejemplo de realización de la presente invención para la propia búsqueda puede utilizarse la función de correlación cruzada (KKF). La función de correlación cruzada discreta de dos señales discretas en el tiempo x[k] e y[k]
es por lo general una medida de similitud de las dos señales x[k] e y[k] para un desplazamiento en el tiempo A, donde A significa desplazamiento en el tiempo en valores de muestreo. Si un patrón de búsqueda o una ventana de tiempo de comparación Sj,k,xxx presenta una longitud L, es decir comprende L subunidades Ui,xxx, y se produce una subdivisión de manera equidistante, entonces el patrón de búsqueda se compone de los siguientes valores de característica:
En caso de que para la propia búsqueda se utilice la función de correlación cruzada,
entonces puede efectuarse una identificación de discontinuidades en la evolución de la señal perturbada sdeg(t) mediante un análisis de múltiples máximos de la KKF(Mj,ref,Sj,k,deg,A). En caso de que la KKF también presente más de un máximo en diferentes desplazamientos temporales A, entonces con mayor probabilidad existe una discontinuidad de la señal perturbada sdeg(t) dentro de la ventana de tiempo de comparación o del patrón de búsqueda Sj,k,deg, ya que una parte de Sj,k,deg se halló en una posición A1 del primer máximo y otra parte en la posición A2 del segundo máximo de la KKF. Además puede tener lugar una identificación de discontinuidades en la evolución de la señal perturbada sdeg(t) mediante un análisis del valor del máximo de la función de correlación cruzada KKF (Mj,ref,Sj,k,deg, A) o de la magnitud de la función de correlación cruzada KKF (Mj,ref,Sj,k,deg,A). En estos casos, según un ejemplo de realización de la presente invención, ventajosamente el patrón de búsqueda Sj,k,deg se subdivide adicionalmente, dividiéndose Sj,k,deg preferiblemente entre A1 y A2. De ello resulta una división iterativa de la función de búsqueda. A este respecto ha de observarse sin embargo que, cuando la longitud L de los patrones de búsqueda Sj,k,xxx queda por debajo de un tamaño mínimo determinado, la búsqueda ya no puede realizarse con éxito. En este momento, sin embargo, la búsqueda ya está tan restringida que pueden aplicarse procedimientos clásicos como por ejemplo coincidencia de bloques o correlación de fase de nuevo con un esfuerzo razonable.
Si, en el caso de las señales de información sxxx(t), se trata de señales de vídeo, entonces un patrón de búsqueda Sj,k,xxx es por ejemplo una secuencia de varias imágenes individuales. Una discontinuidad es por ejemplo la falta de una o varias imágenes debido a perturbaciones de transmisión. El método de división iterativo descrito anteriormente del vector de características Mj,xxx en patrones de búsqueda Sj,k,xxx lleva a que Sj,k,xxx consista en un segmento antes de una discontinuidad, mientras que Sj,k+1,xxx consiste en un segmento subsiguiente.
Si, en el caso de las señales de información sxxx(t), se trata de señales de audio o voz, entonces un patrón de búsqueda Sj,k,xxx es por ejemplo una secuencia de subunidades Ui,xxx. Una discontinuidad es por ejemplo la falta de una o varias subunidades Ui,xxx debido a perturbaciones de transmisión. Los métodos de división iterativos descritos llevan a que Sj,k,xxx consista en el segmento antes de una discontinuidad, mientras que Sj,k+l,xxx consiste en el segmento subsiguiente.
Para una explicación más detallada de la división de un vector de características Mj,xxx en patrones de búsqueda Sj,k,xxx, la figura 4 muestra esquemáticamente una evolución de valores de característica Mi,j,xxx para subsegmentos Ui,xxx sucesivos.
La figura 4 muestra una evolución de valores de característica de doce subunidades Ui,xxx (i = 1, ..., 12) sucesivas, donde las subunidades Ui,xxx significan un instante de muestreo o una subsecuencia de instantes de muestreo. Los valores de característica individuales mostrados en la figura 4 se reúnen en un vector de características Mj,xxx para la característica j. En el escenario representado en la figura 4 a modo de ejemplo se subdivide el vector de características Mj,xxx en segmentos equidistantes de en cada caso cuatro subunidades, para obtener tres ventanas de tiempo de comparación o patrones de búsqueda Sj,k,xxx, que comprenden en cada caso cuatro subunidades, es decir L=4. Ha de observarse que la figura 4 sólo es una representación a modo de ejemplo, y que puede efectuarse una subdivisión de un vector de características Mj,xxx por lo general también de otro modo.
Si por ejemplo, en el caso de las señales de información, se trata de señales de vídeo, y en el caso de los valores de característica Mi,j,xxx, de la energía total de una imagen o fotograma por cada instante de muestreo i, entonces los tres patrones de búsqueda Sj,k,xxx mostrados en la figura 4 comprenden en cada caso una evolución de energía total de cuatro fotogramas sucesivos. Tal como ya se describió anteriormente, ahora puede hallarse una posición temporal o alineación temporal de los cuatro fotogramas sucesivos o de un patrón de búsqueda Sj,k,deg con referencia al vector de características Mj,ref de la señal de referencia sref(t) por medio de la función de correlación cruzada KKF(Mj,ref,Sj,k,deg,A). Esto representa por tanto una alineación temporal basta de en cada caso cuatro fotogramas o cuatro subunidades. Si un patrón de búsqueda comprende por lo general L subunidades, entonces evidentemente tiene lugar una alineación temporal basta de L subunidades.
La función de correlación cruzada KKF (Mj,ref,Sj,k,deg, A) es a este respecto sólo una medida de la similitud de los subespacios individuales de los vectores de características Mj,xxx y por ejemplo puede sustituirse también por otros procedimientos. Otra medida de una similitud de los subespacios individuales de los vectores de características es, según ejemplos de realización adicionales de la presente invención, por ejemplo, el error cuadrático medio. Por consiguiente puede realizarse una alineación temporal basta también con el método del error cuadrático medio mínimo (MMSE = Minimum Mean Squared Error).
Si se recurre a la función de correlación cruzada KKF(Mi,ref,Sj,k,deg,A) como medida de similitud, entonces la posición del máximo de la función de correlación cruzada determina el desplazamiento del patrón de búsqueda Sj,k,deg dentro del vector de características Mj,ref. El valor del máximo de la función de correlación cruzada KKF(Mj,ref,Sj,k,deg,A) es a este respecto una medida de la coincidencia de Sj,k,deg y el correspondiente subespacio a partir de Mj,ref. Esta relación se representa esquemáticamente en la figura 5.
La figura 5 muestra medios 130 para determinar la información para la alineación temporal basándose en similitudes entre una primera 510 y una segunda 520 evolución de característica según un ejemplo de realización de la presente invención.
La primera evolución 510 de característica corresponde a este respecto a un patrón de búsqueda Sj,k,deg, es decir a una sección del vector de características Mj,deg. La segunda evolución 520 de característica corresponde al vector de características Mj,ref de la j-ésima característica de la señal de información de referencia sref(t). Las dos evoluciones 510 y 520 de característica se suministran a los medios 130 para determinar la información para la alineación temporal. Según un ejemplo de realización de la presente invención, los medios 130 para determinar la información para la alineación temporal utilizan la función de correlación cruzada KKF(Mj,ref,Sj,k,deg,A) de las dos evoluciones 510 y 520 de característica como medida de la similitud entre las dos evoluciones 510 y 520 de característica o Sj,k,deg y Mj,ref.
Tal como se indica esquemáticamente en la figura 5, la función de correlación cruzada de las dos evoluciones 510 y 520 de característica o Sj,k,deg y Mj,ref puede proporcionar un máximo, cuya posición determina el desplazamiento en el tiempo del patrón de búsqueda Sj,k,deg dentro del vector de características Mj,ref. Además, la magnitud del máximo de la función de correlación cruzada es una medida de la coincidencia del patrón de búsqueda Sj,k,deg y el correspondiente subespacio del vector de características Mj,ref. Una magnitud grande del máximo significa por tanto una coincidencia muy buena, mientras que un valor más bien pequeño del máximo indica una coincidencia menos buena y por tanto una cierta incertidumbre.
En caso de que la búsqueda de un patrón de búsqueda Sj,k,deg, que se obtuvo a partir del vector de características Mj,deg, no tenga éxito, es decir en caso de que por ejemplo la magnitud del máximo de la función de correlación cruzada KKF(Mj,ref,Sj,k,deg,A) para la característica j sea demasiado baja, entonces según un ejemplo de realización de la presente invención se vuelve a repetir la búsqueda de otra característica j’, siempre que cada subunidad i esté caracterizada por una pluralidad de características. Se busca por tanto Sj’,k,deg en Mj’,ref.
Según ejemplos de realización adicionales de la presente invención, el patrón 510 de búsqueda también puede formarse evidentemente a partir del vector de características Mj,ref de la señal de referencia, es decir Sj,k,ref, y buscarse en el vector de características Mj,deg de la señal perturbada sdeg(t).
Según un ejemplo de realización adicional de la presente invención, los medios 120 de extracción de características pueden extraer una característica a partir de una pluralidad de características, de modo que la característica presenta propiedades de característica que, en comparación con propiedades de característica de otras características, indican un mayor éxito de búsqueda en la búsqueda de un patrón de búsqueda Sj,k,xxx a partir de una de las evoluciones de característica primera y segunda o vector de características Mj,xxx de la característica. Para ello, los medios 120 de extracción de características pueden estar adaptados para determinar como propiedad de característica por ejemplo una medida de dispersión de la característica Mj,xxx o del vector de características Mj,xxx. Ejemplos actuales de medidas de dispersión son a este respecto, por ejemplo, la varianza o la desviación estándar, pudiendo concebirse también otras medidas de dispersión.
Si una evolución de característica o vector de características Mj,xxx presenta una amplitud de dispersión relativamente alta alrededor de su valor medio, entonces esto puede considerarse como indicio de que una búsqueda de un patrón de búsqueda Sj,k,xxx, que se obtuvo a partir del vector de características Mj,xxx, evolucionará con más éxito con mayor probabilidad que una búsqueda de un patrón de búsqueda S’j,k,xxx, que se obtuvo a partir de otro vector de características M’j,xxx, que presenta una menor amplitud de dispersión alrededor de su valor medio.
Recurriendo a varias características para la determinación de información para la alineación temporal de la primera señal de información y de la segunda señal de información, puede determinarse la información para la alineación temporal de manera eficaz y rápida. A este respecto, la probabilidad de obtener un resultado puede aumentarse claramente con respecto al uso de sólo una característica predeterminada para la determinación de la información para la alineación temporal.
A modo de ejemplo una búsqueda de un patrón de búsqueda Sj,k+l,deg podría efectuarse de tal manera que se inicie la búsqueda de la característica j para la que la búsqueda del patrón de búsqueda Sj,k,deg anterior en el tiempo tuvo éxito o que ha proporcionado los mayores valores de correlación. A este respecto se parte de que, entre dos patrones de búsqueda o periodos de comparación Sj,x,xxx, Sj,k+1,xxx sucesivos en el tiempo, las propiedades de característica estadísticas de una característica cambian poco o nada y la característica j mantiene su valor informativo o probabilidad de éxito de búsqueda. Considerando periodos de comparación más alejados entre sí Sj,k,xxx, Sj,k+tk,xxx, esta suposición ya no es válida en determinadas circunstancias, de modo que características, que prometen los mejores resultados de búsqueda, pueden variar en función del índice de tiempo k del periodo de comparación.
En general esto significa que, para patrones de búsqueda o periodos de comparación sucesivos también pueden usarse diferentes características para la obtención de una evolución de característica.
Tal como ya se mencionó anteriormente, el procedimiento para determinar información para la alineación temporal de una primera señal de información y de una segunda señal de información según ejemplos de realización de la presente invención sirve para una búsqueda temporal basta, dependiendo la resolución temporal de la longitud L de los patrones de búsqueda Sj,k,xxx. Para una alineación temporal más fina dentro de la longitud L del patrón de búsqueda Sj,k,xxx pueden utilizarse por ejemplo métodos convencionales como por ejemplo los algoritmos de coincidencia de bloques o correlación de fase con un esfuerzo razonable.
Si conforme al concepto según la invención se realiza una alineación temporal de todos los patrones de búsqueda o ventanas de tiempo de comparación Sj,k,xxx entre la señal perturbada y la no perturbada, como resultado se facilita información, que es necesaria para adaptar la estructura temporal de la señal transmitida o perturbada sdeg(t) de nuevo a la estructura de la señal original o no perturbada sref(t). Como efecto secundario puede utilizarse esta información temporal según ejemplos de realización de la presente invención también para la evaluación de la calidad de transmisión. Si mediante el procedimiento según la invención se establece concretamente que la señal transmitida o perturbada sdeg(t) sólo está ligeramente retardada o presenta pocos defectos, entonces puede partirse en este caso de que la calidad de transmisión era relativamente buena. Si por el contrario una señal transmitida sdeg(t) presenta un tiempo de retardo grande o faltan de manera correspondiente muchos fragmentos de señal, es decir aparecen muchas discontinuidades, entonces esto indica una calidad de transmisión relativamente mala.
En resumen, la figura 6 muestra esquemáticamente un diagrama de flujo de un procedimiento para determinar información para la alineación temporal de una primera señal de información y de una segunda señal de información, que según un ejemplo de realización de la presente invención transcurre en el dispositivo 110 para determinar información.
El diagrama de flujo representado en la figura 6 comprende una primera etapa S1, una etapa S2 siguiente, una etapa S3 posterior, una etapa S4 y una etapa S5 opcional.
En el procedimiento mostrado para determinar información para la alineación temporal, según un ejemplo de realización de la presente invención, en la primera etapa S1 la primera y la segunda señal de información o la señal de información perturbada sdeg(t) y la no perturbada sref(t) se subdivide en cada caso en subunidades Ui,xxx, correspondiendo las subunidades a instantes de muestreo i o subsecuencias i de instantes de muestreo.
En la segunda etapa S2, cada subunidad Ui,xxx se caracteriza por al menos una característica Mi,j,xxx. A cada subunidad Ui,xxx de la primera y de la segunda señal de información se le asigna por tanto una característica o una pluralidad de j características. A este respecto los conjuntos de características resultantes se reúnen en vectores de características Mi,xxx o Mj,xxx. Un vector de características Mj,xxx comprende por tanto, por ejemplo, en cada caso una característica j característica para todas las subunidades Ui,xxx de la primera o de la segunda señal de información.
En la tercera etapa S3 se divide ahora un vector de características Mj,xxx o la pluralidad de vectores de características Mxxx para al menos una de las dos señales de información en patrones de búsqueda o ventanas de tiempo de comparación Sj,k,xxx. A este respecto una ventana de tiempo de comparación Sj,k,xxx comprende por ejemplo varios instantes de muestreo i o subsecuencias i de instantes de muestreo.
En la subsiguiente etapa S4 se buscan entonces los patrones de búsqueda Sj,k,xxx individuales de una de las señales de información en el correspondiente vector de características Mj,xxx de la otra señal de información, para obtener una información para la alineación temporal basándose en similitudes entre la primera y la segunda evolución de característica. Para ello puede usarse por ejemplo una función de correlación cruzada entre las dos evoluciones de característica, tal como ya se describió anteriormente.
Después de que la etapa S4 haya proporcionado una información para la alineación temporal basándose en similitudes entre la primera Sj,k,xxx y la segunda evolución de característica Mj,xxx, en una etapa S5 opcional puede usarse esta información temporal para alinear temporalmente las dos señales de información adicionalmente, es decir más detalladamente. Esto puede producirse entonces, por ejemplo, por medio de procedimientos convencionales tales como por ejemplo coincidencia de bloques o correlación de fase, pero entonces con la ventaja de que debe realizarse de manera más detallada sólo dentro de un intervalo de desplazamiento entre el patrón de búsqueda o la evolución de característica de la primera o segunda señal de información, la alineación de una parte correspondiente de la primera y segunda señal de información, que se sitúa en un intervalo predeterminado alrededor del valor de desplazamiento A obtenido en la etapa S4. La alineación detallada en la etapa S5 se basa a este respecto por ejemplo en el hallazgo de similitudes entre los valores de información de las dos señales de información que van a alinearse entre sí, como por ejemplo los valores de píxel de las respectivas imágenes, o al menos una parte de los valores de información por cada subunidad Ui,xxx, como por ejemplo un fotograma, ocupando entonces la parte preferiblemente un mayor volumen de datos que el valor de característica Mi,j,xxx por cada subunidad Ui,xxx. A modo de ejemplo se determina la suma de los cuadrados de los errores entre las secuencias de vídeo de los patrones de búsqueda o de la evolución de característica para desplazamientos por imagen alrededor del valor de desplazamiento A basto a partir de la etapa S4, y se determina el valor de desplazamiento más fino como el valor que lleva al cuadrado de los errores más pequeño. A este respecto el valor de desplazamiento A basto puede presentar por ejemplo una granularidad de dos fotogramas, correspondientemente subunidades Ui,xxx y características Mi,j,xxx de dos fotogramas, mientras que el valor de desplazamiento más fino presenta por ejemplo una granularidad de un fotograma.
Según formas de realización adicionales de la presente invención, en el procedimiento mostrado esquemáticamente en la figura 6, también pueden faltar o ser opcionales etapas individuales. A modo de ejemplo, la etapa S1 es opcional cuando una división en subunidades Ui,xxx se obtiene ya de manera inherente a partir de la estructura de señal de sdeg(t)
o sref(t), como puede ser el caso por ejemplo en secuencias de vídeo, en las que las subunidades, Ui,xxx corresponden en cada caso a fotogramas o imágenes individuales. La etapa S3 también puede omitirse según formas de realización de la presente invención, cuando por ejemplo los vectores de características Mj,deg y Mj,ref se correlacionan directamente uno con otro, para establecer un desplazamiento en el tiempo A entre Mj,deg y Mj,ref, o Mj,deg y Mj,ref se dividen de manera iterativa, para obtener patrones de búsqueda Sj,k,xxx adecuados, tal como ya se ha descrito anteriormente.
El concepto según la invención puede utilizarse por tanto para dividir una búsqueda de segmentos similares de un flujo de datos perturbado sdeg(t) y uno no perturbado sref(t) en dos fases. En la primera fase, una búsqueda basta, no se examinan los propios flujos de datos, sino más bien las características Mi,j,xxx obtenidas a partir de los flujos de datos. Mediante la reducción de la complejidad asociada con esto puede lograrse una gran ventaja en el tiempo de cálculo necesario. La fiabilidad puede aumentarse además, al utilizar no sólo una característica, sino más bien una pluralidad de características y al seleccionar para cada segmento la característica en cada caso más apropiada. Después de que de esta manera pueda restringirse claramente el intervalo de búsqueda, puede efectuarse entonces en la segunda fase una búsqueda fina, en la que pueden usarse procedimientos convencionales como por ejemplo coincidencia de bloques o correlación de fase. Sin embargo, puesto que el intervalo de búsqueda en la segunda fase es pequeño, el tiempo de cálculo necesario para ello es menos crítico.
Únicamente por precaución se indica que los ejemplos de realización anteriores sólo con vistas a una comprensión más sencilla han partido de una señal de referencia no perturbada Sref(t) y una señal perturbada Sdeg(t) como señales que han de alinearse entre sí. La alineación de dos señales de información perturbadas o dos no perturbadas es sin embargo igualmente posible. Además, tal como ya se ha mencionado anteriormente, puede recurrirse a diferentes características para su uso en la alineación basta, como por ejemplo la energía (de banda) en el caso de una señal de audio y el brillo, el color, el contraste o información de bordes, es decir información sobre la parte de alta frecuencia de la imagen, en el caso de una señal de vídeo. Estas características pueden obtenerse en el caso de una señal de vídeo a lo largo de toda la zona de imagen o sólo a lo largo de una o varias secciones, pudiendo ser a su vez diferentes, en el caso de la obtención por secciones y de la extracción de varias características, las secciones de extracción de diferentes características. Además, las posibilidades mencionadas en relación con la alineación basta para una medida de similitud, concretamente la correlación cruzada y la RMSE, constituyen únicamente ejemplos ilustrativos para la búsqueda de similitud y existen evidentemente otras posibilidades, como por ejemplo métodos SDA (squared absolute difference). Algo parecido sucede para la alineación fina. Las posibilidades mencionadas en relación con la alineación fina para una medida de similitud, concretamente la coincidencia de bloques y la correlación de fase, representan igualmente sólo ejemplos ilustrativos junto a otras posibilidades, como por ejemplo métodos SDA (squared absolute difference). Además, únicamente por precaución se indica que, por el término “señal de audio” deben entenderse todas las señales que tienen que ver con información acústica, es decir no sólo piezas de música sino además también señales de voz.
Según ejemplos de realización de la presente invención, el planteamiento de objetivo de la presente invención no es generar a partir de una señal cualquiera una estructura temporal definida de manera precisa, sino que se refiere más bien a adaptar la estructura temporal de una señal perturbada sdeg(t) a la estructura de una señal original, no perturbada sref(t), es decir recuperar prácticamente el estado original. En la técnica se conocen para ello procedimientos que están sujetos sin excepción a grandes limitaciones, ya que o bien fracasan en presencia de fuertes perturbaciones o bien sólo pueden aplicarse a determinadas señales. A esto se añade que en los procedimientos conocidos el esfuerzo computacional es prohibitivamente elevado. La diferencia fundamental entre el concepto conocido y el de la invención es el paso de un análisis de la información de señal propiamente dicha (grandes cantidades de datos) a un análisis de metainformación (vectores de características, cantidades de datos reducidas). La reducción asociada a ello del esfuerzo computacional va acompañada también de un incremento de la exactitud, ya que la metainformación puede adaptarse de manera esencialmente más específica al planteamiento de objetivos, de lo que permite una comparación directa de dos bloques de información.
Dicho de otro modo, los ejemplos de realización crean por tanto un procedimiento, que es adecuado para asociar segmentos similares de dos o más flujos de información, incluso en caso de un desarrollo discontinuo de los flujos de información. Los flujos de información se subdividen en segmentos, pudiendo describirse cada segmento por una o varias características. Esto condiciona una reducción de la información, que es necesaria para el posterior análisis. Los segmentos de uno de los flujos de información se buscan en el vector de características no subdividido del otro flujo de información con ayuda de un análisis de similitud para la búsqueda basta. A este respecto pueden utilizarse una o varias características para la búsqueda. Alternativamente, puede efectuarse según un ejemplo de realización de la presente invención una división también para los dos vectores de características de los dos flujos de información en segmentos. Si con el análisis de similitud de los vectores de características se lograra una asociación temporal de los dos flujos de información, puede recurrirse a métodos convencionales para la búsqueda fina o para una asociación temporal fina de los flujos de información.
Según ejemplos de realización de la presente invención puede aplicarse la información sobre la variación de la asociación temporal por la transmisión para la evaluación de la calidad de la transmisión. Debe destacarse a este respecto que el concepto según la invención es independiente del tipo de información. La búsqueda de segmentos de flujo de datos similares no se efectúa a través de los propios datos, sino a través del análisis de metainformación o características obtenidas a partir de los datos.
Dependiendo de las circunstancias, el procedimiento según la invención para determinar la información para la alineación temporal de una primera señal de información y de una segunda señal de información puede implementarse en hardware o en software. La implementación puede efectuarse en un medio de almacenamiento digital, en particular un disquete o CD con señales de control legibles electrónicamente, que pueden actuar conjuntamente con un sistema informático programable de manera que se lleve a cabo el procedimiento. En general, la invención consiste por tanto también en un producto de programa informático con un código de programa almacenado en un soporte legible por máquina para la realización del procedimiento según la invención, cuando el producto de programa informático se ejecuta en un ordenador. En otras palabras, la invención puede realizarse por tanto como un programa informático con un código de programa para la realización del procedimiento para determinar información para la alineación temporal de una primera señal de información y de una segunda señal de información, cuando el programa informático se ejecuta en un ordenador.
Claims (15)
- REIVINDICACIONES1. Dispositivo (110) para determinar información para la alineación temporal de una primera señal de información (sdeg(t)) y de una segunda señal de información (sref(t)), que presentan para instantes de muestreo sucesivos en cada caso uno o varios valores de información, conmedios (120) de extracción de características para la extracción de características (Mi,j,deg) de una pluralidad de características por cada instante de muestreo o por cada subsecuencia de instantes de muestreo de los instantes de muestreo sucesivos a partir de la primera señal de información (sdeg(t)), para obtener por cada característica una primera evolución de característica (Mj,deg), que está subdividida en una secuencia de ventanas de tiempo de comparación, y para extraer las características (Mi,j,ref) por cada instante de muestreo o por cada subsecuencia de instantes de muestreo de los instantes de muestreo sucesivos a partir de la segunda señal de información (sref(t)), para obtener por cada característica una segunda evolución de característica (Mj,ref),estando configurados los medios (120) de extracción de características para seleccionar por cada ventana de tiempo de comparación una característica con mayor probabilidad de éxito de búsqueda a partir de las características, que presenta propiedades de característica que, en comparación con propiedades de característica de las demás características, indican una mayor probabilidad de éxito de búsqueda en la búsqueda de la primera evolución de característica (Mj,deg; Mj,ref) en la respectiva ventana de tiempo de comparación en la segunda evolución de característica, y concretamente con o bien una amplitud de dispersión de la característica o bien una magnitud de un máximo de una medida de similitud entre la primera y la segunda evolución de característica de la característica como una medida de la probabilidad de éxito de búsqueda de la respectiva característica; ymedios (130) para determinar la información para la alineación temporal basándose en similitudes entre la primera (Mj,deg) y la segunda evolución de característica (Mj,ref) de la característica con mayor probabilidad de éxito de búsqueda mediante una búsqueda de la primera evolución de característica de la característica con mayor probabilidad de éxito de búsqueda en cada una de la pluralidad de ventanas de tiempo de comparación en la segunda evolución de característica de la característica con mayor probabilidad de éxito de búsqueda.
-
- 2.
- Dispositivo según la reivindicación 1, en el que los medios (120) de extracción de características están adaptados para usar como medida de dispersión para la amplitud de dispersión la varianza o la desviación estándar.
-
- 3.
- Dispositivo según la reivindicación 1, en el que los medios de extracción de características están configurados para usar una función de correlación como medida de similitud.
-
- 4.
- Dispositivo según una de las reivindicaciones anteriores, en el que la primera (sdeg(t)) y la segunda señal de información (sref(t)) son en cada caso una señal de vídeo digital, que presenta como la pluralidad de valores de información por cada instante de muestreo los valores de píxel de una imagen de vídeo, y en el que cada una de la pluralidad de características (Mi,j,deg; Mi,j,ref) corresponde en cada caso a una parte de movimiento de una zona de imagen entre dos imágenes de vídeo sucesivas o a información de brillo, color, contraste o bordes en una sección de imagen o a lo largo de las imágenes de vídeo completas.
-
- 5.
- Dispositivo según una de las reivindicaciones anteriores, en el que los medios (120) de extracción de características están configurados de tal manera que una totalidad de la pluralidad de características (Mi,j,deg; Mi,j,ref) por cada instante de muestreo o por cada subsecuencia de instantes de muestreo es menor que una totalidad de los valores de información de la primera (sdeg(t)) o de la segunda señal de información (sref(t)) por cada instante de muestreo o por cada subsecuencia de instantes de muestreo, a partir de los cuales se extraen.
-
- 6.
- Dispositivo según una de las reivindicaciones anteriores, en el que los medios (130) para determinar la información para la alineación temporal están configurados para determinar las similitudes entre la primera (Mj,deg; Sj,k,deg) y la segunda evolución de característica (Mj,ref; Sj,k,ref) de la característica con mayor probabilidad de éxito de búsqueda por medio de una función de correlación entre la primera y la segunda evolución de característica de la característica con mayor probabilidad de éxito de búsqueda.
-
- 7.
- Dispositivo según la reivindicación 6, en el que una posición del máximo de la función de correlación entre la primera (Mj,deg; Sj,k,deg) y la segunda evolución de característica (Mj,ref; Sj,k,ref) de la característica con mayor probabilidad de éxito de búsqueda significa un desplazamiento en el tiempo de ambas evoluciones de característica entre sí.
-
- 8.
- Dispositivo según una de las reivindicaciones 6 ó 7, en el que los medios (130) para determinar la información para la alineación temporal están configurados para establecer una discontinuidad de la primera (Mj,deg; Sj,k,deg) o de la segunda evolución de característica (Mj,ref; Sj,k,ref) de la característica con mayor probabilidad de éxito de búsqueda por una aparición de múltiples máximos de la función de correlación entre la
primera y la segunda evolución de característica de la característica con mayor probabilidad de éxito de búsqueda, correspondiendo una discontinuidad a una falta de valores de información de la primera con respecto a la segunda señal de información, o viceversa, entre dos instantes de muestreo sucesivos. -
- 9.
- Dispositivo según una de las reivindicaciones 6 ó 7, en el que los medios (130) para determinar la información para la alineación temporal están configurados para establecer una discontinuidad de la primera (Mj,deg; Sj,k,deg) o de la segunda evolución de característica (Mj,ref; Sj,k,ref) de la característica con mayor probabilidad de éxito de búsqueda por el valor del máximo de la función de correlación o de la magnitud de la función de correlación entre la primera y la segunda evolución de característica de la característica con mayor probabilidad de éxito de búsqueda, correspondiendo una discontinuidad a una falta de valores de información de la primera con respecto a la segunda señal de información, o viceversa, entre dos instantes de muestreo sucesivos.
-
- 10.
- Dispositivo según la reivindicación 8 ó 9, en el que los medios (130) para determinar la información para la alineación temporal están configurados además para dividir la primera evolución de característica de la característica con mayor probabilidad de éxito de búsqueda en la respectiva ventana de tiempo de comparación (Mj,deg; Sj,k,deg) en lugar de la discontinuidad establecida en, en cada caso, dos ventanas de tiempo de comparación más pequeñas y para realizar de nuevo una alineación con respecto a las ventanas de tiempo de comparación más pequeñas.
-
- 11.
- Dispositivo según una de las reivindicaciones anteriores, que presenta además la siguiente característica:
medios para la alineación temporal más detallada de la primera (sdeg(t)) y de la segunda (sref(t)) señal de información dentro de la respectiva ventana de tiempo de comparación (Sj,k,deg) basándose en la información para la alineación temporal basándose en similitudes entre la primera (Mj,deg) y la segunda evolución de característica (Mj,ref) de la característica con mayor probabilidad de éxito de búsqueda. -
- 12.
- Dispositivo según la reivindicación 11, en el que los medios para la alineación temporal más detallada están configurados para realizar una alineación temporal más detallada por medio de algoritmos de coincidencia de bloques o SAD o algoritmos de correlación o por medio de correlación de fase dentro de un periodo de tiempo, que está predeterminado por la información para la alineación temporal.
-
- 13.
- Dispositivo según una de las reivindicaciones anteriores, que presenta además la siguiente característica: medios de evaluación para evaluar una calidad de transmisión de una transmisión entre la primera (sdeg(t)) y la segunda señal de información (sref(t)) basándose en la información para la alineación temporal.
-
- 14.
- Procedimiento implementado en hardware o software para determinar información para la alineación temporal de una primera señal de información (Sdeg(t)) y de una segunda señal de información (Sref(t)), que presentan para instantes de muestreo sucesivos en cada caso uno o varios valores de información, con las siguientes etapas:
extraer características (Mi,j,deg) de una pluralidad de características por cada instante de muestreo o por cada subsecuencia de instantes de muestreo de los instantes de muestreo sucesivos a partir de la primera señal de información (Sdeg(t)), para obtener por cada característica una primera evolución de característica (Mj,deg), que está subdividida en una secuencia de ventanas de tiempo de comparación, y extraer las características (Mi,j,ref) por cada instante de muestreo o por cada subsecuencia de instantes de muestreo de los instantes de muestreo sucesivos a partir de la segunda señal de información (Sref(t)), para obtener por cada característica una segunda evolución de característica (Mj,ref),por cada ventana de tiempo de comparación, seleccionar una característica con mayor probabilidad de éxito de búsqueda a partir de las características, que presenta propiedades de característica que, en comparación con propiedades de característica de las demás características, indican una mayor probabilidad de éxito de búsqueda en la búsqueda de la primera evolución de característica (Mj,deg; Mj,ref) en la respectiva ventana de tiempo de comparación en la segunda evolución de característica, y concretamente se usa con una amplitud de dispersión de la característica o una magnitud de un máximo de una medida de similitud entre la primera y la segunda evolución de característica de la característica como una medida de la probabilidad de éxito de búsqueda de la respectiva característica; ydeterminar la información para la alineación temporal basándose en similitudes entre la primera (Mj,deg) y la segunda evolución de característica (Mj,ref) de la característica con mayor probabilidad de éxito de búsqueda para la respectiva ventana de tiempo de comparación mediante búsqueda de la primera evolución de característica (Mj,deg; Mj,ref) de la característica con mayor probabilidad de éxito de búsqueda en cada una de la pluralidad de ventanas de tiempo de comparación en la segunda evolución de característica de la característica con mayor probabilidad de éxito de búsqueda. - 15. Programa informático con un código de programa para la realización del procedimiento para determinar información para la alineación temporal de una primera señal de información y de una segunda señal de información según la reivindicación 14, cuando el programa informático se ejecuta en un ordenador.
Applications Claiming Priority (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| DE102006044929A DE102006044929B4 (de) | 2006-09-22 | 2006-09-22 | Vorrichtung zum Bestimmen von Informationen zur zeitlichen Ausrichtung zweier Informationssignale |
| DE102006044929 | 2006-09-22 | ||
| PCT/EP2007/008252 WO2008034632A1 (de) | 2006-09-22 | 2007-09-21 | Vorrichtung zum bestimmen von informationen zur zeitlichen ausrichtung zweier informationssignale |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| ES2380643T3 true ES2380643T3 (es) | 2012-05-17 |
Family
ID=38998722
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| ES07818341T Active ES2380643T3 (es) | 2006-09-22 | 2007-09-21 | Dispositivo para determinar información para la alineación temporal de dos señales de información |
Country Status (9)
| Country | Link |
|---|---|
| US (1) | US8228385B2 (es) |
| EP (1) | EP2064898B1 (es) |
| KR (1) | KR101044160B1 (es) |
| AT (1) | ATE541409T1 (es) |
| DE (1) | DE102006044929B4 (es) |
| DK (1) | DK2064898T3 (es) |
| ES (1) | ES2380643T3 (es) |
| PT (1) | PT2064898E (es) |
| WO (1) | WO2008034632A1 (es) |
Families Citing this family (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| DE102006044929B4 (de) | 2006-09-22 | 2008-10-23 | Opticom Dipl.-Ing. Michael Keyhl Gmbh | Vorrichtung zum Bestimmen von Informationen zur zeitlichen Ausrichtung zweier Informationssignale |
| EP2114079B2 (en) | 2008-05-02 | 2018-01-24 | Psytechnics Ltd | Method and apparatus for aligning signals |
| ES2575869T3 (es) * | 2010-07-30 | 2016-07-01 | Deutsche Telekom Ag | Método y aparato para sincronizar temporalmente el flujo de bits de entrada de un descodificador de vídeo con la secuencia de vídeo procesada descodificada por el descodificador de vídeo |
| US8737769B2 (en) * | 2010-11-26 | 2014-05-27 | Microsoft Corporation | Reconstruction of sparse data |
| CN109903752B (zh) * | 2018-05-28 | 2021-04-20 | 华为技术有限公司 | 对齐语音的方法和装置 |
| CN111563073B (zh) * | 2020-04-20 | 2023-07-07 | 杭州市质量技术监督检测院 | Nqi信息共享的方法、平台、服务器及可读存储介质 |
Family Cites Families (13)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5055939A (en) * | 1987-12-15 | 1991-10-08 | Karamon John J | Method system & apparatus for synchronizing an auxiliary sound source containing multiple language channels with motion picture film video tape or other picture source containing a sound track |
| DE4309957C1 (de) * | 1993-03-26 | 1994-07-14 | Media Control Musik Medien | Verfahren zum Wiedererkennen von unikaten Bildsignalen und Vorrichtung zur Durchführung des Verfahrens |
| IL119504A (en) * | 1996-10-28 | 2000-09-28 | Elop Electrooptics Ind Ltd | Audio-visual content verification method and system |
| FR2769777B1 (fr) * | 1997-10-13 | 1999-12-24 | Telediffusion Fse | Procede et systeme d'evaluation, a la reception, de la qualite d'un signal numerique, tel qu'un signal audio/video numerique |
| US6259477B1 (en) * | 1998-06-23 | 2001-07-10 | Tektronix, Inc. | Joint spatial-temporal alignment of video sequences |
| US6496221B1 (en) * | 1998-11-02 | 2002-12-17 | The United States Of America As Represented By The Secretary Of Commerce | In-service video quality measurement system utilizing an arbitrary bandwidth ancillary data channel |
| EP1104924A1 (en) | 1999-12-02 | 2001-06-06 | Koninklijke KPN N.V. | Determination of the time relation between speech signals affected by time warping |
| CA2403665C (en) * | 2000-03-31 | 2007-12-04 | British Telecommunications Public Limited Company | Image processing |
| US6751360B1 (en) * | 2000-11-14 | 2004-06-15 | Tektronix, Inc. | Fast video temporal alignment estimation |
| KR100824711B1 (ko) * | 2003-08-22 | 2008-04-24 | 니뽄 덴신 덴와 가부시키가이샤 | 영상 정합 장치, 영상 정합 방법, 및 영상 정합 프로그램을기록한 기록매체 |
| US7233349B2 (en) * | 2004-09-01 | 2007-06-19 | Videotek, Inc. | Video timing display indicator |
| US7586515B2 (en) * | 2005-05-23 | 2009-09-08 | Tektronix, Inc. | Instrument for real-time video quality measurement |
| DE102006044929B4 (de) | 2006-09-22 | 2008-10-23 | Opticom Dipl.-Ing. Michael Keyhl Gmbh | Vorrichtung zum Bestimmen von Informationen zur zeitlichen Ausrichtung zweier Informationssignale |
-
2006
- 2006-09-22 DE DE102006044929A patent/DE102006044929B4/de not_active Expired - Fee Related
-
2007
- 2007-09-21 ES ES07818341T patent/ES2380643T3/es active Active
- 2007-09-21 AT AT07818341T patent/ATE541409T1/de active
- 2007-09-21 EP EP07818341A patent/EP2064898B1/de active Active
- 2007-09-21 US US12/442,067 patent/US8228385B2/en active Active
- 2007-09-21 DK DK07818341.5T patent/DK2064898T3/da active
- 2007-09-21 KR KR1020097005954A patent/KR101044160B1/ko active Active
- 2007-09-21 PT PT07818341T patent/PT2064898E/pt unknown
- 2007-09-21 WO PCT/EP2007/008252 patent/WO2008034632A1/de not_active Ceased
Also Published As
| Publication number | Publication date |
|---|---|
| DE102006044929A1 (de) | 2008-04-10 |
| US20100141774A1 (en) | 2010-06-10 |
| EP2064898B1 (de) | 2012-01-11 |
| EP2064898A1 (de) | 2009-06-03 |
| KR101044160B1 (ko) | 2011-06-24 |
| DE102006044929B4 (de) | 2008-10-23 |
| PT2064898E (pt) | 2012-04-23 |
| DK2064898T3 (da) | 2012-05-07 |
| ATE541409T1 (de) | 2012-01-15 |
| US8228385B2 (en) | 2012-07-24 |
| WO2008034632A1 (de) | 2008-03-27 |
| KR20090045941A (ko) | 2009-05-08 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| ES2380643T3 (es) | Dispositivo para determinar información para la alineación temporal de dos señales de información | |
| Xu et al. | Automated analysis of child phonetic production using naturalistic recordings | |
| Shih et al. | RAD-TTS: Parallel flow-based TTS with robust alignment learning and diverse synthesis | |
| Hochmuth et al. | A Spanish matrix sentence test for assessing speech reception thresholds in noise | |
| Fu et al. | High‐frame‐rate full‐vocal‐tract 3D dynamic speech imaging | |
| ES2684297T3 (es) | Método y discriminador para clasificar diferentes segmentos de una señal de audio que comprende segmentos de voz y música | |
| US20130325470A1 (en) | System and method for identification of a speaker by phonograms of spontaneous oral speech and by using formant equalization | |
| Jassim et al. | WARP-Q: Quality prediction for generative neural speech codecs | |
| ES2364401A1 (es) | Método y sistema para la estimación de parámetros fisiológicos de la fonación. | |
| US9626575B2 (en) | Visual liveness detection | |
| Li et al. | Cross-domain audio deepfake detection: Dataset and analysis | |
| US20210121124A1 (en) | Classification machine of speech/lingual pathologies | |
| ES2763937T3 (es) | Procedimiento para la valoración de una calidad de un uso de la voz de un hablante | |
| Diaz-Cadiz et al. | Adductory vocal fold kinematic trajectories during conventional versus high-speed videoendoscopy | |
| Kadambi et al. | Wav2DDK: analytical and clinical validation of an automated diadochokinetic rate estimation algorithm on remotely collected speech | |
| US11232810B2 (en) | Voice evaluation method, voice evaluation apparatus, and recording medium for evaluating an impression correlated to pitch | |
| KR20170110350A (ko) | 개인화 모델을 이용한 집중도 측정 장치 및 방법 | |
| ES2897326T3 (es) | Prueba de renderización de objetos de pantalla | |
| US20190377954A1 (en) | Comparing video sequences using fingerprints | |
| ES2536560T3 (es) | Método para descubrir y reconocer patrones | |
| Vojtech et al. | Acoustic identification of the voicing boundary during intervocalic offsets and onsets based on vocal fold vibratory measures | |
| WO2023032553A1 (ja) | 構音異常検出方法、構音異常検出装置、及びプログラム | |
| Ferreira et al. | Consistency of the F0, Jitter, Shimmer and HNR voice parameters in GSM and VOIP communication | |
| Shellikeri et al. | Digital markers of motor speech impairments in spontaneous speech of patients with ALS-FTD spectrum disorders | |
| Petermann et al. | Evaluation of analytical modeling functions for the phonation onset process |