ES2610102T3 - Método y aparato para detectar una señal de voz - Google Patents

Método y aparato para detectar una señal de voz Download PDF

Info

Publication number
ES2610102T3
ES2610102T3 ES13867161.5T ES13867161T ES2610102T3 ES 2610102 T3 ES2610102 T3 ES 2610102T3 ES 13867161 T ES13867161 T ES 13867161T ES 2610102 T3 ES2610102 T3 ES 2610102T3
Authority
ES
Spain
Prior art keywords
time
frame
spl
periods
voice signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES13867161.5T
Other languages
English (en)
Inventor
Lijing Xu
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Application granted granted Critical
Publication of ES2610102T3 publication Critical patent/ES2610102T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Telephone Function (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Telephonic Communication Services (AREA)

Abstract

Un método para detectar una señal de voz, que comprende: realizar, en una unidad de longitud de trama de primer segmento de tiempo, un entramado de una muestra de voz continua para obtener múltiples primeros períodos de tiempo, detectar energía en cada uno de los primeros períodos de tiempo, y determinar un primer período de tiempo meta que comprende una excepción abrupta potencial de una señal de voz mediante el análisis de una relación entre la energía de los múltiples primeros períodos de tiempo, en donde la excepción abrupta potencial de una señal de voz comprende una de las siguientes situaciones: interrupción abrupta potencial, comienzo abrupto y final abrupto de una señal de voz, y en donde una interrupción abrupta corresponde a una ocurrencia de un par que comprende un final abrupto y un comienzo abrupto en la misma sección de un segmento de la señal de voz; realizar, en una unidad de longitud de trama de segundo período de tiempo, un entramado de la muestra de voz continua para obtener múltiples segundos períodos de tiempo, en donde una longitud de trama de cada uno de los segundos períodos de tiempo es una integral múltiple de la longitud de trama de primer período de tiempo, y un segundo período de tiempo que comprende el primer período de tiempo meta es un segundo período de tiempo meta; y procesar cada uno de los segundos períodos de tiempo para adquirir una característica de tono, en donde el procesamiento de característica de tono comprende realizar una transformada de Fourier rápida en cada uno de los segundos períodos de tiempo para adquirir un espectro de densidad de potencia, determinar un punto máximo local según el espectro de densidad de potencia, y analizar un segmento de un intervalo de dominio de frecuencia centrado en el punto máximo local para determinar si existe un componente tonal en una banda de frecuencia en la que se ubica el punto máximo local; y determinar, mediante el análisis de la característica de tono adquirida de al menos uno de los segundos períodos de tiempo que comprende al menos uno de los primeros períodos de tiempo meta, si la excepción abrupta potencial de una señal de voz comprendida en el primer período de tiempo meta comprendido en el segundo período de tiempo meta es una excepción abrupta real de una señal de voz.

Description

5
10
15
20
25
30
35
40
45
50
55
DESCRIPCION
Metodo y aparato para detectar una senal de voz.
Campo tecnico
La presente invencion se refiere al campo del procesamiento de audio y, mas espedficamente, a un metodo y un aparato para detectar una senal de voz.
Antecedentes
Para facilitar el analisis, en tecnologfas de audio, un comienzo abrupto (comienzo abrupto) y/o final abrupto (final abrupto) de una senal de voz en esta memoria descriptiva indica/n dos tipos de situaciones: Una situacion es que el final abrupto y comienzo abrupto ocurren en un par en una misma seccion de un segmento de voz y duran un penodo de tiempo relativamente breve, y, para abreviar, se hace referencia a ello como "interrupcion abrupta" en este contexto. Por ejemplo, en un proceso de habla, una perdida de una parte de informacion en la mitad de un segmento de senales de voz puede provocar una interrupcion abrupta. La otra situacion es que el comienzo abrupto ocurra individualmente o que el final abrupto ocurra individualmente, y, para abreviar, se hace referencia a ello como "comienzo abrupto" o "final abrupto" en este contexto. Por ejemplo, ocurre un comienzo abrupto de una senal de voz cuando comienza el habla u ocurre un final abrupto de una senal de voz cuando finaliza el habla. En la siguiente descripcion, una excepcion abrupta de una senal de voz puede incluir una de las siguientes situaciones: interrupcion abrupta, comienzo abrupto o final abrupto de una senal de voz.
La excepcion abrupta de una senal de voz principalmente esta provocada por una perdida de paquetes y una determinacion erronea del VAD (detector de actividad de voz) en un proceso de procesamiento de senal y puede causar danos en la semantica (semantico) y sintaxis (sintactico) de la senal de voz despues de que se restaura la senal de voz. Debido a que la semantica y la sintaxis estan relacionadas con el contenido del lenguaje (contenido del lenguaje), en comparacion con un examinador de idioma no nativo, a un examinador de idioma nativo le afecta mas un comienzo abrupto o final abrupto de una senal de voz. Cuando se utiliza un modelo de evaluacion de calidad de voz para evaluar la calidad de una senal de voz, en general, no se analiza el contenido del lenguaje y, por lo tanto, no se puede reflejar un impacto de la excepcion abrupta de una senal de voz en la calidad acustica. Para resolver este problema, ademas de un modelo de evaluacion basico, es necesario que se pueda detectar una excepcion abrupta de una senal de voz, para que la evaluacion de calidad se realice sobre una excepcion abrupta individual de una senal de voz que ocurre en todas las senales de voz.
En la tecnica anterior, la precision al detectar una excepcion abrupta de una senal de voz es relativamente baja.
El documento WO 2002/047068 A2 describe una tecnica de clasificacion de habla para una clasificacion robusta de modos de discurso variables con el fin de permitir un rendimiento maximo de las tecnicas de codificacion de tasa de bits variable multimodo. Un clasificador de habla clasifica de manera precisa un alto porcentaje de segmentos de habla para codificarlos a tasas de bits mmimas, cumpliendo con requisitos de tasas de bits mas bajas. Una clasificacion de habla de alta precision produce una tasa de bits codificada promedio mas baja, y una mayor calidad de habla descodificada. El clasificador de habla considera una cantidad maxima de parametros para cada trama de habla, generando clasificaciones de modo de habla numerosas y precisas para cada trama. El clasificador de habla clasifica correctamente numerosos modos de habla en condiciones ambientales variables. El clasificador de habla ingresa parametros de clasificacion desde componentes externos, genera parametros de clasificacion interna a partir de los parametros de entrada, establece un umbral de Funcion de Coeficiente de Autocorrelacion Normalizada y selecciona un analizador de parametros segun el entorno de la senal, y luego analiza los parametros para crear una clasificacion de modo de habla.
El documento US 5.774.847 describe que en los metodos y aparatos para distinguir senales estacionarias de senales no estacionarias, se determina un conjunto de coeficientes de codificacion de prediccion lineal (LPC, por sus siglas en ingles) con propiedades espectrales de la senal para cada uno de los multiples intervalos de tiempo sucesivos, incluyendo un intervalo de tiempo actual. Los coeficientes LPC se promedian entre multiples intervalos de tiempo sucesivos que anteceden al intervalo de tiempo actual, y se determina una correlacion cruzada de los coeficientes LPC para el intervalo de tiempo actual con los coeficientes LPC promediados. La senal se define como estacionaria en el intervalo de tiempo actual cuando la correlacion cruzada excede un valor umbral, y se define como no estacionaria en el intervalo de tiempo actual cuando la correlacion cruzada es menor que el valor umbral. Los metodos y aparatos se pueden aplicar especialmente a la deteccion de transiciones entre un estado de ausencia de habla, caracterizado por una senal estacionaria, y un estado de presencia de habla, caracterizado por una senal no estacionaria.
Compendio
En vista de lo anterior, las realizaciones de la presente invencion ofrecen un metodo y un aparato para detectar una senal de voz, de modo que pueda resolverse un problema de precision relativamente baja al detectar una excepcion abrupta de una senal de voz.
5
10
15
20
25
30
35
40
45
50
55
60
Segun un primer aspecto, se ofrece un metodo para detectar una senal de voz, que incluye: realizar, en una unidad de longitud de trama de primer penodo de tiempo, un entramado de una muestra de voz continua para obtener multiples primeros penodos de tiempo, detectar energfa de cada uno de los primeros penodos de tiempo, y determinar un primer penodo de tiempo meta que incluye una excepcion abrupta potencial de una senal de voz mediante el analisis de una relacion entre la energfa de los multiples primeros penodos de tiempo, donde la excepcion abrupta potencial de una senal de voz incluye una de las siguientes situaciones: interrupcion abrupta potencial, comienzo abrupto, y final abrupto de una senal de voz, y en donde una interrupcion abrupta corresponde a una ocurrencia de un par que comprende un final abrupto y un comienzo abrupto en la misma seccion de un segmento de la senal de voz; realizar, en una unidad de longitud de trama de segundo penodo de tiempo, un entramado de la muestra de voz continua para obtener multiples segundos penodos de tiempo, donde una longitud de trama de cada uno de los segundos penodos de tiempo es una integral multiple de la longitud de trama de primer penodo de tiempo, y un segundo penodo de tiempo que incluye el primer penodo de tiempo meta es un segundo penodo de tiempo meta; y procesar cada uno de los segundos penodos de tiempo para adquirir una caractenstica de tono, en donde el procesamiento de la caractenstica de tono comprende realizar una transformada de Fourier rapida en cada uno de los segundos penodos de tiempo para adquirir un espectro de densidad de potencia, determinar un punto maximo local segun el espectro de densidad de potencia, y analizar un segmento de un intervalo de dominio de frecuencia centrado en el punto maximo local para determinar si existe un componente tonal en una banda de frecuencia en la que esta ubicado el punto maximo; y determinar, mediante el analisis de la caractenstica de tono adquirida de al menos uno de los segundos penodos de tiempo incluyendo al menos uno de los primeros penodos de tiempo meta, si la excepcion abrupta potencial de una senal de voz incluida en el primer penodo de tiempo meta incluido en el segundo penodo de tiempo meta es una excepcion abrupta real de una senal de voz.
En una primera forma de implementacion posible, el metodo incluye: realizar un entramado de la muestra de voz continua en una unidad de longitud de trama de primer penodo de tiempo, para dividir la muestra de voz continua en los multiples primeros penodos de tiempo segun un orden cronologico, y adquirir energfa trama_energ^a_corta (i) de cada uno de los primeros penodos de tiempo, donde la trama iesima es el iesimo primer penodo de tiempo en los multiples primeros penodos de tiempo, e i es un numero natural.
Con referencia a la primera forma de implementacion posible del primer aspecto, en una segunda forma de implementacion posible, el metodo incluye: si la relacion entre la energfa de los primeros penodos de tiempo cumple con (trama_ene^a_corta(i -1)-trama_energ^a_corta(i)>a2) y (trama_energ/a_corta(i)<ai), determinar que la trama iesima es un primer penodo de tiempo meta que incluye un final abrupto potencial de una senal de voz, donde ai y a2 es un primer umbral preestablecido y un segundo umbral preestablecido, respectivamente, e i>i.
En referencia a la primera forma de implementacion posible del primer aspecto, en una tercera forma de implementacion posible, el metodo incluye: si la relacion entre la energfa de los primeros penodos de tiempo cumple con (trama_energ/a_corta(i-2)-trama_energ/a_corta(i)>a2) y (trama_energ^a_corta(i)<a1), donde ai y a2 son un primer umbral preestablecido y un segundo umbral preestablecido, respectivamente, y ni la trama (i-1)esima ni la trama (i- 2)esima es un primer penodo de tiempo meta que incluye un final abrupto potencial de una senal de voz, determinar que la trama iesima es el primer penodo de tiempo meta que incluye un final abrupto potencial de una senal de voz, donde i>2 y la trama 0y la 1era trama estan preestablecidos como primeros penodos de tiempo que no incluyen un final abrupto potencial de una senal de voz.
En referencia a la primera forma de implementacion posible del primer aspecto, en una cuarta forma de implementacion posible, el metodo incluye: si la relacion entre la energfa de los primeros penodos de tiempo cumple con (trama_energ/a_corta(i-3)-trama_energ/a_corta(i)>a2) y (trama_energ^a_corta(i)<a1), donde ai y a2 son un primer umbral preestablecido y un segundo umbral preestablecido, respectivamente, y ninguna de las tramas comprendidas entre la trama (i-1)esima y la trama (i-3)esima es un primer penodo de tiempo meta que incluye un final abrupto potencial, determinar que la trama iesima es el primer penodo de tiempo meta que incluye un final abrupto potencial de una senal de voz, donde i>3 y la trama 0, la 1era trama y la 2da trama estan preestablecidas como primeros penodos de tiempo que no incluyen un final abrupto potencial de una senal de voz.
En referencia a la primera forma de implementacion posible del primer aspecto, en una quinta forma de implementacion posible, el metodo incluye: si la relacion entre la energfa de los primeros penodos de tiempo cumple con (trama_energ^a_corta(i)-trama_energ^a_corta(i-1)>a2) y (trama_energ^a_corta(i-1)<a1), determinar que la trama iesima es un primer penodo de tiempo meta que incluye un comienzo abrupto potencial de una senal de voz, donde ai y a2 son un primer umbral preestablecido y un segundo umbral preestablecido, respectivamente, e i>i.
En referencia a la primera forma de implementacion posible del primer aspecto, en una sexta forma de implementacion posible, el metodo incluye: si la relacion entre la energfa de los primeros penodos de tiempo cumple con (trama_energ/a_corta(i)-trama_energ/a_corta(i-2)>a2) y (trama_energ/a_corta(i-2)<ai), donde ai y a2 son un primer umbral preestablecido y un segundo umbral preestablecido, respectivamente, y ni la trama (i-i)esima ni la trama (i-2)esima es un primer penodo de tiempo meta que incluye un comienzo abrupto potencial de una senal de voz, determinar que la trama iesima es el primer penodo de tiempo meta que incluye un comienzo abrupto potencial de una senal de voz, donde i>2 y la trama 0y la iera trama estan preestablecidos como primeros penodos de tiempo que no incluyen un comienzo abrupto potencial de una senal de voz.
5
10
15
20
25
30
35
40
45
50
55
60
En referencia a la primera forma de implementacion posible del primer aspecto, en una septima forma de implementacion posible, el metodo incluye: si la relacion entre la ene^a de los primeros penodos de tiempo cumple con (tmma_ene^a_coiia(i)-trama_ene^a_coiia(/-3)>a2) y (trama_energ^a_corta(/-3)<a1), donde ai y a2 son un primer umbral preestablecido y un segundo umbral preestablecido, respectivamente, y ninguna de las tramas (i- 1)esima a la trama (i-3)esima es un primer penodo de tiempo meta que incluye un comienzo abrupto potencial de una senal de voz, determinar que la trama iesima es el primer penodo de tiempo meta que incluye un comienzo abrupto potencial de una senal de voz, donde i>3 y la trama 0, la 1era trama, y la 2da trama estan preestablecidos como primeros penodos de tiempo que no incluyen un comienzo abrupto potencial de una senal de voz.
En referencia al primer aspecto o a cualquiera de las formas de implementacion posibles anteriores del primer aspecto, en una octava forma de implementacion posible, el metodo incluye: realizar un procesamiento de deteccion de tono en los multiples segundos penodos de tiempo segun un orden cronologico; y adquirir un nivel de presion sonora total (SPL; por sus siglas en ingles) sp/_tota/(k), un nivel de presion sonora de componente tonal sp/_tona/(k), y un nivel de presion sonora de componente no tonal sp/_no_tona/(k) de la trama kesima, donde la trama kesima es el segundo penodo de tiempo kesimo en los multiples segundos penodos de tiempo y k es un numero natural.
En referencia a la octava forma de implementacion posible del primer aspecto, en una novena forma de implementacion posible, el metodo incluye: si una caractenstica de tono del segundo penodo de tiempo meta cumple con spl_tonal(k)>a3, determinar que la excepcion abrupta potencial de una senal de voz incluida en la trama kesima es una interrupcion abrupta real de una senal de voz; o, si una caractenstica de tono del segundo penodo de tiempo meta cumple con (a4^sp/_tona/(k)<a3) y (spl_total(k)>=a5), determinar que la excepcion abrupta potencial de una senal de voz incluida en la trama kesima es una interrupcion abrupta real de una senal de voz, donde a3, a4 y a5 son un tercer umbral preestablecido, un cuarto umbral preestablecido, y un quinto umbral preestablecido, respectivamente
En referencia a la octava forma de implementacion posible del primer aspecto, en una decima forma de implementacion posible, el metodo incluye: determinar si uno de sp/_tota/(k), sp/_tota/(k-1), y sp/_tota/(k+1) aumenta excesivamente rapido, y si uno de sp/_tota/(k), sp/_tota/(k-1), y sp/_tota/(k+1) aumenta excesivamente rapido, y la caractenstica de tono del segundo penodo de tiempo cumple con: (sp/_tona/(k+1)>ai), (sp/_tona/(k)<as), (sp/_tona/(k+i)-sp_no_tona/(k)>0), y (sp/_no_tona/(k-i)< ag), determinar que la excepcion abrupta potencial de una senal de voz incluida en la trama kesima es un comienzo abrupto real de una senal de voz; o determinar si uno de sp/_tota/(k), sp/_tota/(k-1), y sp/_tota/(k+1) aumenta excesivamente rapido, y si uno de sp/_tota/(k), sp/_tota/(k-1), y sp/_tota/(k+1) aumenta excesivamente rapido, y la caractenstica de tono del segundo penodo de tiempo cumple con: (sp/_tona/(k+2)>aio), (sp/_tota/(k+1)<aii), (sp/_tona/(k+2)-sp/_no_tona/(k+i)>0), y (sp/_no_tona/(k)< ai2), determinar que la excepcion abrupta potencial de una senal de voz incluida en la trama kesima es un comienzo abrupto real de una senal de voz, donde a7 a ai2 es un septimo umbral preestablecido a un duodecimo umbral preestablecido; y determinar si uno de sp/_tota/(k), sp/_tota/(k-i), y sp/_tota/(k+i) disminuye excesivamente rapido incluye: si la caractenstica de tono del segundo penodo de tiempo cumple con (sp/_tota/(k+i)-sp/_tota/(k-i)>a6 y (sp/_tota/(k-i) y sp/_tota/(k-2) aumentan ligeramente), determinar que sp/_tona/(k) aumenta excesivamente rapido, donde k>2, y se preestablece que un nivel de presion sonora total de la trama 0 y un nivel de presion sonora total de la iera trama aumentan ligeramente; o si la caractenstica de tono del segundo penodo de tiempo cumple con (sp/_tota/(k)- sp/_tota/(k-2)>a6), (sp/_tota/(k)>sp/_tota/(k-i), (sp/_tota/(k-i)>sp/_tota/(k-2)), y (sp/_tota/(k-i) y sp/_tota/(k-2) aumentan ligeramente), determinar que el sp/_tona/(k) aumenta excesivamente rapido, donde k>2, se preestablece que un nivel de presion sonora total de la trama 0 y un nivel de presion sonora total de la iera trama aumenta ligeramente, y a6 es un sexto umbral preestablecido; o si la caractenstica de tono del segundo penodo de tiempo no cumple con ninguna de las dos condiciones anteriores determinar que el sp/_tona/(k) aumenta ligeramente.
En referencia a la octava forma de implementacion posible del primer aspecto, en una undecima forma de implementacion posible, el metodo incluye: determinar si uno de sp/_tota/(k), sp/_tota/(k-i), y sp/_tota/(k+i) disminuye excesivamente rapido, y si uno de sp/_tota/(k), sp/_tota/(k-i), y sp/_tota/(k+i) disminuye excesivamente rapido, y la caractenstica de tono del segundo penodo de tiempo cumple con: (sp/_tona/(k-i)>ai), (sp/_tona/(k)<as), (sp/_tona/(k-i)-sp_no_tona/(k)>0), y (sp/_no_tona/(k+i)<ag), determinar que la excepcion abrupta potencial de una senal de voz incluida en la trama kesima es un final abrupto real de una senal de voz, donde k>i; o determinar si uno de sp/_tota/(k), sp/_tota/(k-i), y sp/_tota/(k+i) disminuye excesivamente rapido, y si uno de sp/_tota/(k), sp/_tota/(k-i), y sp/_tota/(k+i) disminuye excesivamente rapido, y la caractenstica de tono del segundo penodo de tiempo cumple con: (sp/_tona/(k-2)>ai0), (sp/_tona/(k-i)<aii), (sp/_tona/(k-i)-sp/_no_tona/(k-2)>0), y (sp/_no_tona/(k)<ai2),
determinar que la excepcion abrupta potencial de una senal de voz incluida en la trama kesima es un final abrupto real de una senal de voz, donde k>2, y a7 a ai2 es un septimo umbral preestablecido a un duodecimo umbral preestablecido; y determinar si uno de sp/_tota/(k), sp/_tota/(k-i), y sp/_tota/(k+i) aumenta excesivamente rapido incluye: si la caractenstica de tono del segundo penodo de tiempo cumple con (sp/_tota/(k-i)-sp/_tota/(k)>a6) y (sp/_tota/(k-i) y sp/_tota/(k-2) disminuyen ligeramente), determinar que sp/_tota/(k) disminuye excesivamente rapido, donde k>2, y se preestablece que un nivel de presion sonora total de la trama 0 y un nivel de presion sonora total de la iera trama disminuye ligeramente; o si la caractenstica de tono del segundo penodo de tiempo cumple con (sp/_tota/(k-2)-sp/_tota/(k)>a6), (sp/_tota/(k-i)>sp/_tota/(k)), y (sp/_tota/(k-2)>sp/_tota/(k-i)), y (sp/_totai(k-i) y sp/_tota/(k-2) disminuyen ligeramente), determinar que sp/_tota/(k) disminuye excesivamente rapido, donde k>2, y se preestablece que un nivel de presion sonora total de la trama 0 y un nivel de presion sonora total de la iera trama disminuye ligeramente, o si ninguna de las dos condiciones anteriores se cumple determinar que sp/_tota/(k) disminuye ligeramente, donde ae es un sexto umbral preestablecido.
5
10
15
20
25
30
35
40
45
50
55
60
Segun un segundo aspecto, se ofrece un aparato para detectar una senal de voz, que incluye una primera unidad de deteccion, una unidad de entramado, y una segunda unidad de deteccion, donde la primera unidad de deteccion esta configurada para: realizar, en una unidad de longitud de trama de primer penodo de tiempo, un entramado de una muestra de voz continua para obtener multiples primeros penodos de tiempo, detectar energfa de cada uno de los primeros penodos de tiempo, y determinar un primer penodo de tiempo meta que incluye una excepcion abrupta potencial de una senal de voz mediante el analisis de una relacion entre la energfa de los multiples primeros penodos de tiempo, donde la excepcion abrupta potencial de una senal de voz incluye una de las siguientes situaciones: interrupcion abrupta potencial, comienzo abrupto, y final abrupto de una senal de voz, y en donde una interrupcion abrupta corresponde a una ocurrencia de un par que comprende un final abrupto y un comienzo abrupto en la misma seccion de un segmento de la senal de voz; la unidad de entramado esta configurada para realizar, en una unidad de longitud de trama de segundo penodo de tiempo, un entramado de la muestra de voz continua para obtener multiples segundos penodos de tiempo, donde una longitud de trama de cada uno de los segundos penodos de tiempo es una integral multiple de la longitud de trama de primer penodo de tiempo, y un segundo penodo de tiempo que incluye el primer penodo de tiempo meta es un segundo penodo de tiempo meta; y la segunda unidad de deteccion esta configurada para: procesar cada uno de los segundos penodos de tiempo para adquirir una caractenstica de tono, en donde el procesamiento de caractenstica de tono comprende realizar una transformada de Fourier rapida en cada uno de los segundos penodos de tiempo para adquirir un espectro de densidad de potencia, determinar un punto maximo local segun el espectro de densidad de potencia, y analizar un segmento de un intervalo de dominio de frecuencia centrado en el punto maximo local para determinar si existe un componente tonal en una banda de frecuencia en la que esta ubicado el punto maximo local; en donde la segunda unidad de deteccion ademas esta configurada para determinar, mediante el analisis de la caractenstica de tono adquirida de al menos uno de los segundos penodos de tiempo que incluye al menos un primer penodo de tiempo meta, si la excepcion abrupta potencial de una senal de voz incluida en el primer penodo de tiempo meta incluido en el segundo penodo de tiempo meta es una excepcion abrupta real de una senal de voz.
En una primera forma de implementacion posible, la primera unidad de deteccion incluye un primer modulo de adquisicion y un primer modulo de determinacion, donde el primer modulo de adquisicion esta configurado para: realizar el entramado de la muestra de voz continua en una unidad de longitud de trama de primer penodo de tiempo, para dividir la muestra de voz continua en los multiples primeros penodos de tiempo segun un orden cronologico, y adquirir energfa trama_ene^a_corta(i) de cada uno de los primeros penodos de tiempo, donde la trama iesima es el iesim° primer penodo de tiempo en los multiples primeros penodos de tiempo, e i es un numero natural; y el primer modulo de determinacion esta configurado para: si la relacion entre la energfa de los primeros penodos de tiempo cumple ^ con (trama_energ/a_corta(M)-trama_energ/a_corta(i)>a2) y (trama_ene^a_corta(i)<ai) determinar que la trama iesima es un primer penodo de tiempo meta que incluye un final abrupto potencial de una senal de voz, donde ai y a2 son un primer umbral preestablecido y un segundo umbral preestablecido, respectivamente, e i>1.
En referencia al segundo aspecto, en una segunda forma de implementacion posible, la primera unidad de deteccion incluye un primer modulo de adquisicion y un primer modulo de determinacion, donde el primer modulo de adquisicion esta configurado para: realizar un entramado de la muestra de voz continua en una unidad de longitud de trama de primer penodo de tiempo, para dividir la muestra de voz continua en los multiples primeros penodos de tiempo segun un orden cronologico, y adquirir energfa trama_energ^a_corta(i) de cada uno de los primeros penodos de tiempo, donde la trama iesima es el iesimo primer penodo de tiempo en los multiples primeros penodos de tiempo, e i es un numero natural; donde el primer modulo de determinacion esta configurado para: si la relacion entre la energfa de los primeros penodos de tiempo cumple con (trama_energ/a_corta(i-2)-trama_energ/a_corta(i)>a2) y (trama_energ^a_corta(i)<a1), donde ai y a2 son un primer umbral preestablecido y un segundo umbral preestablecido, respectivamente, y ni la trama (i-1)esima ni la trama (i-2)esima es un primer penodo de tiempo meta que incluye un final abrupto potencial de una senal de voz, determinar que la trama iesima es el primer penodo de tiempo meta que incluye un final abrupto potencial de una senal de voz, donde i>2 y la trama 0 y la 1era trama estan preestablecidas como los primeros penodos de tiempo que no incluyen un final abrupto potencial de una senal de voz.
En referencia al segundo aspecto, en una tercera forma de implementacion posible, la primera unidad de deteccion incluye un primer modulo de adquisicion y un primer modulo de determinacion, donde el primer modulo de adquisicion esta configurado para: realizar un entramado de la muestra de voz continua en una unidad de longitud de trama de primer penodo de tiempo, para dividir la muestra de voz continua en los multiples primeros penodos de tiempo segun un orden cronologico, y adquirir energfa trama_ene^a_corta(i) de cada uno de los primeros penodos de tiempo, donde la trama iesimaes el iesimo primer penodo de tiempo en los multiples primeros penodos de tiempo, e i es un numero natural; donde el primer modulo de determinacion esta configurado para: si la relacion entre la energfa de los primeros penodos de tiempo cumple con (trama_energ/a_corta(i-3)-trama_energ/a_corta(i)>a2) y (trama_energ^a_corta(i)<a1), donde ai y a2 son un primer umbral preestablecido y^ un segundo umbral preestablecido, respectivamente, y ninguna de las tramas comprendidas entre la trama (i-1)esima y la trama (i-3)esima es un primer penodo de tiempo meta que incluye un final abrupto potencial de una senal de voz, determinar que la trama iesima es el primer penodo de tiempo meta que incluye un final abrupto potencial de una senal de voz, donde i>3 y la trama 0, la 1era trama, y la 2da trama estan preestablecidas como primeros penodos de tiempo que no incluyen un final abrupto potencial de una senal de voz.
5
10
15
20
25
30
35
40
45
50
55
60
En referencia al segundo aspecto, en una cuarta forma de implementacion posible, la primera unidad de deteccion incluye un primer modulo de adquisicion y un primer modulo de determinacion, donde el primer modulo de adquisicion esta configurado para: realizar un entramado de la muestra de voz continua en una unidad de longitud de trama de primer penodo de tiempo, para dividir la muestra de voz continua en los multiples primeros penodos de tiempo segun un orden cronologico, y adquirir energfa trama_ene^a_corta(i) de cada uno de los primeros penodos de tiempo, donde la trama iesima es el iesim° primer penodo de tiempo en los multiples primeros penodos de tiempo, e i es un numero natural; y el primer modulo de determinacion esta configurado para: si la relacion entre la energfa de los primeros penodos de tiempo cumple con (trama_energ^a_corta(i)-trama_energ^a_corta(i-1)>a2) y (tmma_ene^a_corta(i-1)<ai) determinar que la trama iesima es un primer penodo de tiempo meta que incluye un comienzo abrupto potencial de una senal de voz, donde ai y a2 son un primer umbral preestablecido y un segundo umbral preestablecido, respectivamente, e i>1.
En referencia al segundo aspecto, en una quinta forma de implementacion posible, la primera unidad de deteccion incluye un primer modulo de adquisicion y un primer modulo de determinacion, donde el primer modulo de adquisicion esta configurado para realizar un entramado de la muestra de voz continua en una unidad de longitud de trama de primer penodo de tiempo, para dividir la muestra de voz continua en los multiples primeros penodos de tiempo segun un orden cronologico, y _adquirir energfa trama_ene^a_corta(i) de cada uno de los primeros penodos de tiempo, donde la trama iesima es el iesimo primer penodo de tiempo en los multiples primeros penodos de tiempo, e i es un numero natural; y el primer modulo de determinacion esta configurado para: si la relacion entre la energfa de los primeros penodos de tiempo cumple con (trama_energ^a_corta(i)-trama_energ^a_corta(i-2)>a2) y (trama_energ^a_corta(i-2)<a1), donde ai y a2 son un primer umbral preestablecido y un segundo umbral preestablecido, respectivamente, y ni la trama (i-1)esima ni la trama (i-2)esima es un primer penodo de tiempo meta que incluye un comienzo abrupto potencial de una senal de voz, determinar que la trama iesima es el primer penodo de tiempo meta que incluye un final abrupto potencial de una senal de voz, donde i>2 y la trama 0, y la 1era trama estan preestablecidas como los primeros penodos de tiempo que no incluyen un comienzo abrupto potencial de una senal de voz.
En referencia al segundo aspecto, en una sexta forma de implementacion posible, la primera unidad de deteccion incluye un primer modulo de adquisicion y un primer modulo de determinacion, donde el primer modulo de adquisicion esta configurado para: realizar un entramado de la muestra de voz continua en una unidad de longitud de trama de primer penodo de tiempo, para dividir la muestra de voz continua en los multiples primeros penodos de tiempo segun un orden cronologico, y adquirir energfa trama_ene^a_corta(i) de cada uno de los primeros penodos de tiempo, donde la trama iesima es el iesimo primer penodo de tiempo en los multiples primeros penodos de tiempo, e i es un numero natural; y el primer modulo de determinacion esta configurado para: si la relacion entre la energfa de los primeros penodos de tiempo cumple con (trama_energ^a_corta(i)-trama_energ^a_corta(i-3)>a2) y (trama_energ^a_corta(i-3)>a1), donde ai y a2 son un primer umbral preestablecido y un segundo umbral preestablecido, respectivamente, y ninguna de las tramas comprendidas entre la trama (i-1)esima y la trama (i-3)esima es un primer penodo de tiempo meta que incluye un comienzo abrupto potencial de una senal de voz, determinar que la trama iesima es el primer penodo de tiempo meta que incluye un comienzo abrupto potencial de una senal de voz, donde i>3 y la trama 0, la 1era trama y la 2da trama estan preestablecidas como primeros penodos de tiempo que no incluyen un comienzo abrupto potencial de una senal de voz.
En referencia al segundo aspecto o a cualquiera de las formas de implementacion posibles anteriores del segundo aspecto, en una septima forma de implementacion posible, la segunda unidad de deteccion incluye un segundo modulo de adquisicion y un segundo modulo de determinacion, donde el segundo modulo de adquisicion esta configurado para: realizar un procesamiento de deteccion de tono en los multiples segundos penodos de tiempo segun un orden cronologico, y adquirir un nivel de presion sonora total spl_total(k), un nivel de presion sonora de componente tonal spl_tonal(k), y un nivel de presion sonora de componente no tonal spl_no_tonal(k) de la trama kesima, donde la trama kesima es el kesimo segundo penodo de tiempo en los multiples segundos penodos de tiempo, y k es un numero natural; y el segundo modulo de determinacion esta configurado para: si una caractenstica de tono del segundo penodo de tiempo meta cumple con spl_tonal(k)>a3, determinar que la excepcion abrupta potencial de una senal de voz incluida en la trama kesima es una interrupcion abrupta real de una senal de voz; o, si una caractenstica de tono del segundo penodo de tiempo meta cumple con (a4^spl_tonal(k)<a3) y (spl_total(k)>=a5), determinar que la excepcion abrupta potencial de una senal incluida en la trama kesima es una interrupcion abrupta real de una senal de voz, donde a3, a4, y a5 son un tercer umbral preestablecido, un cuarto umbral preestablecido, y un quinto umbral preestablecido, respectivamente.
En referencia al segundo aspecto o a cualquiera de las formas de implementacion posibles anteriores del segundo aspecto, en una octava forma de implementacion posible, la segunda unidad de deteccion incluye un segundo modulo de adquisicion y un segundo modulo de determinacion, donde el segundo modulo de adquisicion esta configurado para: realizar un procesamiento de deteccion de tono en los multiples segundos penodos de tiempo segun un orden cronologico; y adquirir un nivel de presion sonora total spl_total(k), un nivel de presion sonora de componente tonal spl_tonal(k), y un nivel de presion sonora de componente no tonal spl_no_tonal(k) de la trama kesima, donde la trama kesima es el kesimo segundo penodo de tiempo en los multiples segundos penodos de tiempo y k es un numero natural; y el segundo modulo de determinacion esta configurado para: determinar si uno de spl_total(k), spl_total(k-1), y spl_total(k+1) aumenta excesivamente rapido, y si uno de spl_total(k), spl_total(k-1), y spl_total(k+1) aumenta excesivamente rapido, y la caractenstica de tono del segundo penodo de tiempo cumple con:
10
15
20
25
30
35
40
45
(spl_tonal(k+1) >a/),
(spl_tonal(k)< as),
(spl_tonal(k+1)-sp_no_tonal(k) > 0), y (sp/_no_tona/(k-1)<ag),
determinar que la excepcion abrupta potencial de una senal de voz incluida en la trama kes'ma es un comienzo abrupto real de una senal de voz; o determinar si uno de spl_total(k), spl_total(k-1), y spl_total(k+1) aumenta excesivamente rapido, y si uno de spl_total(k), spl_total(k-1), y spl_total(k+1) aumenta excesivamente rapido, y la caractenstica de tono del segundo penodo de tiempo cumple con:
(sp/_tonal(k+2)>aio),
(sp/_tonal(k+1)<an),
(spl_tonal(k+2)-(spl_no_tonal(k+1)> 0), y (sp/_no_tona/(k)< ai2),
determinar que la excepcion abrupta potencial de una senal de voz incluida en la trama kesima es un comienzo abrupto real de una senal de voz, donde a/ a ai2 es un septimo umbral preestablecido hasta un duodecimo umbral preestablecido; y el segundo modulo de determinacion esta ademas configurado para determinar si uno de sp/_tota/(k), sp/_tota/(k-1), y sp/_tota/(k+1) aumenta excesivamente rapido incluye: si la caractenstica de tono del segundo penodo de tiempo cumple con (sp/_tota/(k)-sp/_tota/(k-1)>ae) y sp/_tota/(k-1) y sp/_tota/(k-2) aumentan ligeramente), determinar que sp/_tona/(k) aumenta excesivamente rapido, donde k>2, y se preestablece que un nivel de presion sonora total de la trama 0 y un nivel de presion sonora total de la 1era trama aumentan ligeramente; o si la caractenstica de tono del segundo penodo de tiempo cumple con (sp/_tota/(k)-sp/_tota/(k-2)>ae), (spl_total(k)>spl_total(k-1)), (sp/_tota/(k-1)>sp/_tota/(k-2)), y (sp/_tota/(k-1) y sp/_tota/(k-2) aumentan ligeramente), determinar que sp/_tona/(k) aumenta excesivamente rapido, donde k>2, se preestablece que un nivel de presion sonora total de la trama 0 y un nivel de presion sonora total de la 1era trama aumenta ligeramente, y a@ es un sexto umbral preestablecido; o si la caractenstica de tono del segundo penodo de tiempo no cumple ninguna de las dos condiciones anteriores determinar que sp/_tona/(k) aumenta ligeramente.
En referencia al segundo aspecto o a cualquiera de las formas de implementacion posibles anteriores del segundo aspecto, en una novena forma posible de implementacion, la segunda unidad de deteccion incluye un segundo modulo de adquisicion y un segundo modulo de determinacion, donde el segundo modulo de adquisicion esta configurado para: realizar un procesamiento de deteccion de tono en los multiples segundos penodos de tiempo segun un orden cronologico; y adquirir un nivel de presion sonora total sp/_tota/(k), un nivel de presion sonora de componente tonal sp/_tona/(k), y un nivel de presion sonora de componente no tonal sp/_no_tona/(k) de la trama kesima, donde la trama kesima es el kesimo segundo penodo de tiempo en los multiples segundos penodos de tiempo y k es un numero natural; y el segundo modulo de determinacion esta configurado para: determinar si uno de sp/_tota/(k), sp/_tota/(k-1), y sp/_tota/(k+1) disminuye excesivamente rapido, y si uno de sp/_tota/(k), sp/_tota/(k-1), y sp/_tota/(k+1) disminuye excesivamente rapido, y la caractenstica de tono del segundo penodo de tiempo cumple con:
(spl_tonal(k-1)>a/),
(sp/_tona/(k)< as),
(spl_tonal(k-1)-sp_no_tonal(k)>0), y (sp/_no_tona/(k+1) < ag),
determinar que la excepcion abrupta potencial de una senal de voz incluida en la trama kesima es un final abrupto real de una senal de voz donde(k>1) ; o determinar si uno de sp/_tota/(k), sp/_tota/(k-1), y sp/_tota/(k+1) disminuye excesivamente rapido, y si uno de sp/_tota/(k), sp/_tota/(k-1), y sp/_tota/(k+1) disminuye excesivamente rapido, y la caractenstica de tono del segundo penodo de tiempo cumple con:
(sp/_tona/(k-2)>a10),
(sp/_tona/(k-1)<a11),
(sp/_tona/(k-1)-sp_no_tona/(k-2)> 0), y
(sp/_no_tona/(k)< a12),
determinar que la excepcion abrupta potencial de una senal de voz incluida en la trama kesima es un final abrupto real de una senal de voz, donde k>2, y 3/ a a12 es un septimo umbral preestablecido hasta un duodecimo umbral preestablecido; y la determinacion de si uno de sp/_tota/(k), sp/_tota/(k-1), y sp/_tota/(k+1) aumenta excesivamente
/
5
10
15
20
25
30
35
40
45
50
55
rapido incluye: si la caractenstica de tono del segundo penodo de tiempo cumple con (spl_total(k-1)-spl_total(k)>a6) y (spl_total(k-1) y sp/_tota/(k-2) disminuyen ligeramente), determinar que sp/_tota/(k) disminuye excesivamente rapido, donde k>2, y se preestablece que un nivel de presion sonora total de la trama 0 y un nivel de presion sonora total de la 1era trama disminuye ligeramente; o si la caractenstica de tono del segundo penodo de tiempo cumple con (spl_total(k-2)-spl_total(k)>ae), (spl_total(k-1)>spl_total(k)), (spl_total(k-2)>spl_total(k-1)), y (spl_total(k-1) y
spl_total(k-2) disminuyen ligeramente), determinar que spl_total(k) disminuye excesivamente rapido, donde k>2, y se preestablece que un nivel de presion sonora total de la trama 0 y un nivel de presion sonora total de la 1era trama disminuye ligeramente; o si ninguna de las dos condiciones anteriores se cumplen determinar que spl_total(k) disminuye ligeramente, donde ae es un sexto umbral preestablecido.
Segun la solucion tecnica mencionada anteriormente, se puede determinar una excepcion abrupta real de una senal de voz al detectar primero una excepcion abrupta potencial de una senal de voz, y analizar adicionalmente una caractenstica de tono de la excepcion abrupta potencial de una senal de voz, de tal manera que la precision en la deteccion de una excepcion abrupta de una senal de voz mejore de manera eficaz.
Breve descripcion de las figuras
Para describir las soluciones tecnicas en las realizaciones de la presente invencion de manera mas clara, a continuacion se describen brevemente los dibujos que acompanan esta memoria, los cuales resultan necesarios para describir las realizaciones de la presente invencion. Segun parece, los dibujos que acompanan la siguiente descripcion simplemente muestran algunas realizaciones de la presente invencion, y una persona con experiencia ordinaria en la tecnica puede incluso obtener otros dibujos a partir de los dibujos que la acompanan sin requerir esfuerzos creativos.
La Figura 1A y la Figura 1B son pantallazos esquematicos de resultados de deteccion de detectar una excepcion abrupta de una senal de voz en tecnologfas relacionadas;
La Figura 2A y la Figura 2B son pantallazos esquematicos de resultados de deteccion de detectar una excepcion abrupta de una senal de voz en tecnologfas relacionadas;
La Figura 3 es un diagrama de flujo esquematico de un metodo para detectar una excepcion abrupta de una senal de voz segun una realizacion de la presente invencion;
La Figura 4 es un diagrama de flujo esquematico de un metodo para detectar una excepcion abrupta de una senal de voz segun otra realizacion de la presente invencion;
La Figura 5A y la Figura 5B son diagramas esquematicos de curvas de distribucion de niveles de presion sonora segun otra realizacion de la presente invencion;
La Figura 6A y la Figura 6B son diagramas esquematicos de curvas de distribucion de niveles de presion sonora segun otra realizacion de la presente invencion;
Cada una de las figuras 7A y 7B es un diagrama de bloque esquematico de un aparato para detectar una senal de voz segun una realizacion de la presente invencion; y
La Figura 8 es un diagrama de bloque esquematico de un aparato para detectar una senal de voz segun otra realizacion de la presente invencion.
Descripcion de las realizaciones
A continuacion se describen claramente las soluciones tecnicas en las realizaciones de la presente invencion haciendo referencia a los dibujos que acompanan esta memoria en las realizaciones de la presente invencion. Segun parece, las realizaciones descritas son algunas pero no todas las realizaciones de la presente invencion. Cualquier otra realizacion obtenida por una persona con experiencia ordinaria en la tecnica a partir de las realizaciones de la presente invencion que no implique esfuerzos creativos estara comprendida dentro del alcance de proteccion de la presente invencion.
La Figura 1A y la Figura 1B son pantallazos esquematicos de resultados de deteccion de detectar una excepcion abrupta de una senal de voz en tecnologfas relacionadas. La Figura 1A muestra un resultado de deteccion definido manualmente mediante comparacion con una voz original y la Figura 1B es un resultado de deteccion en la tecnica anterior. En la Figura 1A y la Figura 1B, un eje horizontal representa puntos de muestreo y un eje vertical representa la amplitud normalizada. Para una interrupcion abrupta que ocurre en un mismo segmento de senales de voz y que dura un penodo de tiempo relativamente breve, y con el fin de simplificar su representacion, en la Figura lA y la Figura iB solo se han marcado las ubicaciones de finales abruptos, tal y como lo indican los segmentos de lmea 11 en las figuras. En comparacion con el resultado de deteccion definido manualmente, en la Figura 1B, no se detecta una interrupcion mas abrupta de una senal de voz, que dura un breve penodo de tiempo y se indica mediante las flechas 12 en la figura.
La Figura 2A y la Figura 2B son pantallazos esquematicos de resultados de deteccion de detectar una excepcion abrupta de una senal de voz en tecnologfas relacionadas. La Figura 2A muestra un resultado de deteccion definido
5
10
15
20
25
30
35
40
45
50
55
60
manualmente mediante comparacion con una voz original y la Figura 2B muestra un resultado de deteccion en la tecnica anterior. En la Figura 2A y la Figura 2B, un eje horizontal representa puntos de muestreo y un eje vertical representa la amplitud normalizada. Para una interrupcion abrupta que ocurre en un mismo segmento de senales de voz y que dura un penodo de tiempo relativamente breve, y con el fin de simplificar su representacion, en la Figura 2A y la Figura 2B solo se han marcado las ubicaciones de finales abruptos y, ademas, tambien se han marcado comienzos abruptos y finales abruptos que ocurren individualmente, tal y como lo indican los segmentos de lmea 21 en las figuras. En comparacion con el resultado de deteccion definido manualmente, en la Figura 2B, no se detecta un comienzo abrupto o final abrupto de una senal de voz con energfa relativamente baja, lo cual se indica mediante flechas 22 en la figura.
Para resolver un problema, de la tecnologfa relacionada, sobre la precision relativamente baja al detectar una excepcion abrupta de una senal de voz, las realizaciones de la presente invencion ofrecen un metodo para detectar una senal de voz, donde una excepcion abrupta de una senal de voz se puede detectar en base a un analisis de una caractenstica de tono, de manera tal que la precision al detectar la excepcion abrupta de una senal de voz se mejore de manera eficaz.
La Figura 3 es un diagrama de flujo esquematico de un metodo 30 para detectar una excepcion abrupta de una senal de voz segun una realizacion de la presente invencion. El metodo 30 incluye el siguiente contenido:
E31. Realizar, en una unidad de longitud de trama de primer penodo de tiempo, un entramado de una muestra de voz continua para obtener multiples primeros penodos de tiempo, detectar energfa en cada uno de los primeros penodos de tiempo, y determinar un primer penodo de tiempo meta que incluye una excepcion abrupta potencial de una senal de voz mediante el analisis de una relacion entre la energfa de los multiples primeros penodos de tiempo, donde la excepcion abrupta potencial de una senal de voz incluye una de las siguientes situaciones: interrupcion abrupta potencial, comienzo abrupto, y final abrupto de una senal de voz.
Tal y como se menciona antes, una excepcion abrupta de una senal de voz puede incluir una de las siguientes situaciones: interrupcion abrupta, comienzo abrupto y final abrupto de una senal de voz. Un primer penodo de tiempo que incluye una excepcion abrupta potencial de una senal de voz puede determinarse comparando la energfa de los multiples primeros penodos de tiempo y comparando la energfa de un primer penodo de tiempo espedfico y un umbral preestablecido y valores similares. En este contexto tambien se hace referencia al primer penodo de tiempo que incluye una excepcion abrupta potencial de una senal de voz como un primer penodo de tiempo meta.
E32. Realizar, en una unidad de longitud de trama de segundo penodo de tiempo, un entramado de la muestra de voz continua para obtener multiples segundos penodos de tiempo, donde una longitud de trama de cada uno de los segundos penodos de tiempo es una integral multiple de la longitud de trama de primer penodo de tiempo, y un segundo penodo de tiempo que incluye el primer penodo de tiempo meta es un segundo penodo de tiempo meta.
E33. Procesar cada uno de los segundos penodos de tiempo para adquirir una caractenstica de tono, y determinar, mediante el analisis de una caractenstica de tono de al menos uno de los segundos penodos de tiempo que incluye al menos uno de los segundos penodos de tiempo meta, si la excepcion abrupta potencial de una senal de voz incluida en el primer penodo de tiempo meta incluido en el segundo penodo de tiempo meta es una excepcion abrupta real de una senal de voz.
Una excepcion abrupta de una senal de voz tambien se denomina excepcion abrupta, para abreviar, una excepcion abrupta potencial de una senal de voz tambien se denomina excepcion abrupta potencial para abreviar, y un comienzo abrupto de una senal de voz o un final abrupto de una senal de voz tambien se denomina, para abreviar, comienzo abrupto o final abrupto, respectivamente. Una interrupcion abrupta es un final abrupto y un comienzo abrupto que ocurren en pares en una misma seccion de un segmento de voz y duran un penodo de tiempo relativamente breve. Un comienzo abrupto o un final abrupto implica que el comienzo abrupto ocurre individualmente o que el final abrupto ocurre individualmente, respectivamente.
Cuando la longitud de trama de segundo penodo de tiempo es una integral multiple del primer penodo de tiempo, despues de realizar el entramado de la muestra de voz continua en una unidad de longitud de trama de segundo penodo de tiempo, se obtienen uno o mas segundos penodos de tiempo. Un segundo penodo de tiempo puede incluir multiples primeros penodos de tiempo. Sin embargo, en todos los segundos penodos de tiempo, uno o algunos segundos penodos de tiempo pueden incluir, por separado, un primer penodo de tiempo meta. Este tipo de segundo penodo de tiempo es un objeto para la deteccion y analisis detallado en esta realizacion de la presente invencion y tambien se hace referencia al mismo en esta memoria como un segundo penodo de tiempo meta. Como una tecnologfa existente, para eliminar un efecto de lfmite durante el procesamiento de senal de voz, se pueden superponer parcialmente dos segundos penodos de tiempo proximos. Por ejemplo, si un primer segundo penodo de tiempo va desde el punto de muestreo 0 al punto de muestreo 511°, un segundo segundo penodo de tiempo va desde el punto de muestreo 255o al punto de muestreo 767o. A continuacion, el procesamiento de caractenstica de tono que incluye una transformada de Fourier rapida y operacion similar se realiza en cada uno de los segundos penodos de tiempo, y luego, se analiza si uno o mas segundos penodos de tiempo cumplen una relacion predeterminada, de tal manera que pueda determinarse si una excepcion abrupta potencial de una senal de voz incluida en un segundo penodo de tiempo meta en uno o mas de los segundos penodos de tiempo es una excepcion
5
10
15
20
25
30
35
40
45
abrupta real de una senal de voz, donde se conoce que el segundo penodo de tiempo meta determinado incluye un primer penodo de tiempo meta.
Esta realizacion de la presente invencion ofrece un metodo para detectar una senal de voz, donde se puede determinar una excepcion abrupta real de una senal de voz al detectar primero una excepcion abrupta potencial de una senal de voz, y al analizar adicionalmente una caractenstica de tono de la excepcion abrupta potencial de una senal de voz, de manera que la precision en la deteccion de una excepcion abrupta de una senal de voz se mejore de manera eficaz.
La Figura 4 es un diagrama de flujo esquematico de un metodo 40 para detectar una excepcion abrupta de una senal de voz segun otra realizacion de la presente invencion. El metodo 40 incluye el siguiente contenido:
E41. Realizar, en una unidad de longitud de trama de primer penodo de tiempo, un entramado de una muestra de voz continua para obtener multiples primeros penodos de tiempo.
El entramado se realiza en un segmento de una muestra de voz continua en una unidad de longitud de trama de primer de penodo de tiempo para obtener multiples primeros penodos de tiempo continuos. Se hace referencia a la trama iesima en los multiples primeros penodos de tiempp^ como el iesimo primer penodo de tiempo y a continuacion y para abreviar se hace referencia al mismo como trama iesima.
E42. Calcular la energfa de cada uno de los primeros penodos de tiempo.
Suponiendo que trama_ene^a_corta(l) representa la energfa de la trama iesima, donde i es un numero natural: trama_er<ergia_Gorta '{t)=lQ+1&2lt}empo_senat_breve (n) Formula 1
n-O
donde ti'empo_senal_breve(n) representa una senal de entrada en la trama iesima, n representa puntos de muestreo, Ni representa la longitud de trama de primer penodo de tiempo, y en esta realizacion se establecen 32 puntos de muestreo. Al seleccionar un primer penodo de tiempo de una longitud de trama apropiada, se puede mejorar la precision en la deteccion o se puede equilibrar la relacion entre la precision en la deteccion y la complejidad de un algoritmo.
E43. Determinar un primer penodo de tiempo meta que incluye una excepcion abrupta potencial de una senal de voz mediante el analisis de una relacion entre la energfa de los primeros penodos de tiempo. La etapa E43 puede incluir la etapa E43-1 o la etapa E43-2.
Se detecta energfa de varias tramas previas a la trama iesima y energfa de la trama iesima, donde la trama (i-1)esima es una trama previa a la trama iesima, la trama (i-2)esima es una trama previa a la trama (i-1)esima, y la trama (i-3)esima es una trama previa a la trama (i-2)esima, y asf sucesivamente.
E43-1. Si la energfa de la trama iesima disminuye rapidamente, es decir, si una de las siguientes condiciones se cumple, determinar que la trama iesima es un primer penodo de tiempo meta que incluye un final abrupto potencial de una senal de voz.
a) (trama_energ/a_corta(/-1)-trama_energfa_corta(/)>a2) y (trama_energ^a_corta(i)<a1).
Generalmente, se preestablece que la trama 0 no es un primer penodo de tiempo meta que incluye un final abrupto potencial. Cuando i>1, se puede determinar, segun la condicion a), si la trama iesima es el primer penodo de tiempo meta que incluye un final abrupto potencial.
b) (trama_energ/a_corta(/-2)-trama_energfa_corta(/)>a2) y (trama_energ^a_corta(i)<a1) y
ni la trama (i-1)esima ni la trama (i-2)esima es un primer penodo de tiempo meta que incluye un final abrupto potencial, donde i>2, y la trama 0 y la 1era trama estan preestablecidas como primeros penodos de tiempo que no incluyen un final abrupto potencial de una senal de voz.
Por ejemplo, cuando i=2, la trama 0y la1era trama ya estan preestablecidas como primeros penodos de tiempo que no incluyen un final abrupto potencial, y luego se puede determinar si la 2da trama es un primer penodo de tiempo meta que incluye un final abrupto potencial de una senal de voz, y asf sucesivamente.
c) (trama_energ/a_corta(/-3)-trama_energfa_corta(/)>a2) y (trama_energ^a_corta(i)<a1) y
ninguna de las tramas (i-1)esima a la trama (i-3)esima es un primer penodo de tiempo meta que incluye un final abrupto potencial, donde i>3, y la trama 0, la 1era trama y la 2da trama estan preestablecidas como primeros penodos de tiempo que no incluyen un final abrupto potencial de una senal de voz.
5
10
15
20
25
30
35
40
45
50
Por ejemplo, cuando i=3, la trama 0, la 1era trama y la 2da ya estan preestablecidas como primeros penodos de tiempo que no incluyen un final abrupto potencial, y luego se puede determinar si la 3era trama es un primer penodo de tiempo meta que incluye un final abrupto potencial de una senal de voz, y asf sucesivamente.
En la aplicacion real, una muestra de voz continua es relativamente extensa y, generalmente, se procesa en un orden cronologico, y algunos primeros penodos de tiempo previos se pueden preestablecer como primeros penodos de tiempo que no incluyen un final abrupto potencial segun uno de los metodos anteriores. Debido a que en la aplicacion real cada trama dura solo decenas de milisegundos, la omision de resultados de deteccion de diversas tramas iniciales no afecta la precision de la deteccion de voz.
E43-2. Comparar la energfa de diversas tramas previas a la trama iesimay la energfa de la trama iesima. Si la energfa de la trama iesima aumenta rapidamente, es decir, si una de las siguientes condiciones se cumple, determinar que la trama iesima es un primer penodo de tiempo meta que incluye un comienzo abrupto potencial de una senal de voz.
d) (trama_ene^a_coiia(i)-tmma_ene^a_coiia(/-1)>a2) y (trama_energ^a_corta(/-1)<a1), donde i>1.
Generalmente, se preestablece que la trama 0 no es un primer penodo de tiempo meta que incluye un comienzo abrupto potencial. Cuando i>1, se puede determinar, segun la condicion d), si la 1era trama es el primer penodo de tiempo meta que incluye un comienzo abrupto potencial.
e) (trama_energ/a_corta(/)-trama_energfa_corta(/-2)>a2) y (trama_energ/a_corta(/'-2)<ai) y
ni la trama (i-1)esima ni la trama (i-2)esima es un primer penodo de tiempo meta que incluye un comienzo abrupto potencial, donde i>2, y la trama 0 y la 1era trama estan preestablecidas como primeros penodos de tiempo que no incluyen un comienzo abrupto potencial de una senal de voz.
Por ejemplo, cuando i=2, ya se ha preestablecido si la trama 0 y la 1era trama han sido preestablecidas como primeros penodos de tiempo que no incluyen un comienzo abrupto potencial, y luego se puede determinar si la 2da trama es un primer penodo de tiempo meta que incluye un comienzo abrupto potencial de una senal de voz, y asf sucesivamente.
f) (trama_energ/a_corta(/)-trama_energ/a_corta(/-3)>a2) y (trama_energ^a_corta(/-3)<a1) y
ninguna de las tramas comprendidas entre la trama (i-1)esima y la trama (i-3)esima es un primer penodo de tiempo meta que incluye un comienzo abrupto potencial, donde i>3, y la trama 0, la 1era trama y la 2da trama estan preestablecidas como primeros penodos de tiempo que no incluyen un comienzo abrupto potencial de una senal de voz.
Por ejemplo, cuando i=3, la trama 0, la 1era trama y la 2da trama ya estan preestablecidas como primeros penodos de tiempo que no incluyen un comienzo abrupto potencial, y luego se puede determinar si la 3era trama es un primer penodo de tiempo meta que incluye un comienzo abrupto potencial de una senal de voz, y asf sucesivamente.
En la aplicacion real, una muestra de voz continua es relativamente extensa y, generalmente, se procesa en un orden cronologico, y algunos primeros penodos de tiempo previos se pueden preestablecer como primeros penodos de tiempo que no incluyen un comienzo abrupto potencial segun uno de los metodos anteriores.
Debido a que en la aplicacion real cada trama dura solo decenas de milisegundos, la omision de resultados de deteccion de diversas tramas iniciales no afecta la precision de la deteccion de voz.
En esta realizacion de la presente invencion a1 =38 y a2 =40. A1 y a2, a3 hasta a12 en las siguientes realizaciones, y valores similares, son todos umbrales preestablecidos en las condiciones y, generalmente, necesitan ser determinados teniendo en consideracion varios aspectos. Por ejemplo, los umbrales se obtienen adiestrando una gran cantidad de muestras segun un tipo de una secuencia de prueba. Ademas, los umbrales son significativos para el volumen de sonido de la secuencia de prueba.
En las condiciones b, c, e, y f, si las diversas tramas previas a la trama iesima son una excepcion abrupta potencial, es una condicion conocida.
Los procesos anteriores desde E41 a E43 son una deteccion aproximada, y luego, desde la E44 a la E46, se realiza la deteccion detallada.
E44. Realizar, en una unidad de longitud de trama de segundo penodo de tiempo, un entramado de la muestra de voz continua para obtener multiples segundos penodos de tiempo, donde cada longitud de trama de segundo penodo de tiempo es una integral multiple de la longitud de trama de primer penodo de tiempo, y realizar un procesamiento de deteccion de tono en cada una de los segundos penodos de tiempo segun un orden cronologico.
En la aplicacion real, una muestra de voz continua procesada es relativamente extensa y, generalmente, se pueden detectar multiples excepciones abruptas potenciales. A partir de lo anterior se conoce que un segundo penodo de tiempo incluye multiples primeros penodos de tiempo, y el segundo penodo de tiempo es mas extenso que el primer penodo de tiempo. Por lo tanto, el segundo penodo de tiempo tambien se usa para indicar un penodo de tiempo extenso, y el primer penodo de tiempo tambien se usa para indicar un penodo de tiempo breve.
5
10
15
20
25
30
35
40
45
50
El entramado se realiza sobre la muestra de voz continua en una unidad de longitud de trama de segundo penodo de tiempo para obtener uno o mas segundos penodos de tiempo, donde algunos segundos penodos de tiempo incluyen los primeros penodos de tiempo meta determinados mediante una deteccion aproximada, los primeros penodos de tiempo meta incluyen una excepcion abrupta potencial de una senal de voz, y tambien se hace referenda a estos segundos penodos de tiempo como segundos penodos de tiempo meta. Se hace referenda a la trama kesima en los multiples segundos penodos de tiempo como el segundo penodo de tiempo kesimo y, a continuation, se hace referenda al mismo como trama kesima para abreviar. La trama (k-2)esima, la trama (k-1)esima, la trama kesima , la trama (k+1)esima , y la trama (k+2)esima son multiples segundos penodos de tiempo dispuestos en orden.
Una etapa de procesamiento de deteccion de tono incluye: realizar una transformada de Fourier rapida (FFT, por sus siglas en ingles) en cada uno de los segundos penodos de tiempo para adquirir un espectro de densidad de potencia; determinar un punto maximo local segun el espectro de densidad de potencia; y analizar un segmento de un intervalo de dominio de frecuencia centrado en el punto maximo local, para determinar si existe un componente tonal en una banda de frecuencia en la que se ubica el punto maximo local. En esta etapa, se utiliza un algoritmo de deteccion de tono del modelo psicoacustico 1 del MPEG (Moving Pictures Experts Group). Para descripciones detalladas, se hace referencia a la etapa 1 y etapa 4 del documento 11173-3 y Anexo D.1 (modelo psicoacustico 1) (modelo psicoacustico 1) de la ISO/IEC (Organizacion Internacional de Normalizacion/Comision Electrotecnica Internacional).
Lo que resulta especial en esta realizacion de la presente invencion es que no solo se analiza un nivel de presion sonora total, es decir, una caractenstica, de una trama actual, sino que tambien se analiza de forma separada un componente tonal y un componente no tonal de la trama actual. A continuacion, el componente tonal y el componente no tonal se utilizan para calcular otras dos caractensticas de tono: un nivel de presion sonora de componente tonal y un nivel de presion sonora de componente no tonal, respectivamente. Se puede conocer una situacion de distribucion de un componente tonal y un componente no tonal de cada uno de los segundos penodos de tiempo en un dominio de frecuencia mediante la deteccion del componente tonal, y luego se puede calcular un nivel de presion sonora de componente tonal y un nivel de presion sonora de componente no tonal.
Las etapas posteriores en esta realizacion de la presente invencion se utilizan para ademas determinar si una excepcion abrupta potencial cle una senal de voz es una excepcion abrupta real de una senal de voz. Por ejemplo, a pesar de que la trama (k-1)esima puede no incluir un primer penodo de tiempo que incluya una excepcion abrupta potencial de una senal de voz, la trama (k-1)esima es un segundo penodo de tiempo proximo a la trama kesima, y, por lo tanto, es necesario calcular un nivel de presion sonora total, un nivel de presion sonora de componente tonal y un nivel de presion sonora de componente no tonal de la trama (k-1)esima, para que se aplique a una o mas de una de las condiciones determinantes citadas a continuacion, determinando asf si la excepcion abrupta potencial de una senal de voz incluida en un primer penodo de tiempo meta incluido en la trama kesima es una excepcion abrupta real de una senal de voz.
E45. Despues del procesamiento de deteccion de tono, adquirir un nivel de presion sonora total, un nivel de presion sonora de componente tonal, y un nivel de presion sonora de componente no tonal de cada uno de los segundos penodos de tiempo.
E45-1. Adquirir un nivel de presion sonora total de la trama kesima segun la siguiente Formula 2.
Suponiendo que spl_total(k) representa el nivel de presion sonora total de la trama kesima:
f h-ti-1
dB
Formuls 2
donde pot_espec(f) representa un espectro de densidad de potencia del segundo penodo de tiempo kesimo, f=0,1, 2, -,(N/2-1), y N2 indica la longitud del segundo penodo de tiempo, y en esta realizacion se establecen 512 puntos de muestreo. El nivel de presion sonora se corresponde con la intensidad sonora, donde mayor intensidad sonora naturalmente se corresponde con mayor energfa. Por lo tanto, el nivel de presion sonora puede reflejar una situacion de energfa. En esta realizacion de la presente invencion, la caractenstica, es decir, el nivel de presion sonora total, se utiliza para reflejar la energfa total del segundo penodo de tiempo.
E45-2. Adquirir un nivel de presion sonora de componente tonal segun la siguiente Formula 3.
Suponiendo que spl_total(k) representa un nivel de presion sonora de componente tonal de la trama kesima:
£ 10 5 +10““ +10 10
[ Jj
dB
Formula 3
donde Nk representa una cantidad de componentes tonales detectados en la trama actual, y las ubicaciones de los componentes tonales se marcan como {f_tonal(0),f_tonal(1),f_tonal(2),...,f_tonal(Nk)}.
La caractenstica, es decir, el nivel de presion sonora de componente tonal, se utiliza para describir una situacion de energfa de un componente tonal en el segundo penodo de tiempo. Si spl_tonal(k) es relativamente elevado, indica 5 que la trama kesima esta ubicada en un area con componentes tonales relativamente ricos.
E45-3. Adquirir un nivel de presion sonora de componente no tonal segun la siguiente Formula 4.
Suponiendo que spl_no_tonal(k) representa un nivel de presion sonora de componente no tonal de la trama kesima:
imagen1
Formula 4
donde Qtonai representa las ubicaciones de un componente tonal y un componente proximo del componente tonal en 10 un dominio de frecuencia:
{f _ ttnof (0) - J, f_tonoi (&),/_ (0) + l, f _ tonal (1) -1,/ _toual (l)+1,
Formula 5
La caractenstica, es decir, el nivel de presion sonora de componente no tonal, se utiliza para describir una situacion de energfa de un componente no tonal en el segundo penodo de tiempo. Si spl_no_tonal(k) es relativamente elevado, indica que la trama kesima esta ubicada en un area con componentes no tonales relativamente ricos.
15 En esta realizacion de la presente invencion, el analisis de situacion de energfa se realiza particularmente en un componente tonal y un componente no tonal de cada uno de los segundos penodos de tiempo, lo que difiere de la tecnica anterior. El analisis facilita determinar si la excepcion abrupta potencial de una senal de voz incluida en el segundo penodo de tiempo es una excepcion abrupta real de una senal de voz en la siguiente etapa.
E46. Determinar, mediante el analisis de una caractenstica de tono de al menos uno de los segundos penodos de 20 tiempo que incluye al menos un segundo penodo de tiempo meta, si la excepcion abrupta potencial de una senal de voz incluida en el primer penodo de tiempo meta incluido en el segundo penodo de tiempo meta es una excepcion abrupta real de una senal de voz.
Un metodo de determinacion incluye E46-1 o E46-2. En E46-1, se puede determinar una interrupcion abrupta real de una senal de voz, y en E46-2, se puede determinar un comienzo abrupto real o un final abrupto real de una senal de 25 voz. Las etapas E46-1 y E46-2 se describen por separado a continuacion:
E46-1. Si el nivel de presion sonora de componente tonal de la trama kesima cumple con cualquiera de las siguientes condiciones, condicion g y condicion h, determinar que la excepcion abrupta potencial incluida en el primer penodo de tiempo meta incluido en la trama kesima es una interrupcion abrupta real.
30
g) spl_tonal(k) es lo suficientemente elevado, tal y como se expresa en la siguiente formula: sp! tonal (k J ^ a, Formula 6
h) spl_tonal(k) es relativamente elevado, tal y como se expresa en la siguiente formula: («j £ spl _ tonal (k) < dj) V (spl _total(k) >= a<) Fdrmula 1
En esta realizacion de la presente invencion, a3 =55, a4 =30 y a5 =58.
Segun la condicion g o la condicion h, se puede determinar de manera secuencial si una excepcion abrupta 35 potencial incluida en el primer penodo de tiempo meta incluido en cada segundo penodo de tiempo meta es una interrupcion abrupta real.
Si spl_tonal(k) y spl_total(k) cumplen las condiciones anteriores, indica que la trama kesima esta ubicada en un area con componentes tonales relativamente ricos. En una situacion normal, es imposible hallar cambios de energfa repentinos y breves en detecciones aproximadas realizadas en un area relativamente con componentes tonales 40 relativamente ricos. Si se puede detectar una interrupcion de una senal de voz en una deteccion aproximada, indica que la interrupcion detectada es una interrupcion abrupta real.
5
10
15
20
25
30
35
40
45
50
55
La Figura 5A y la Figura 5B son diagramas esquematicos de curvas de distribucion de niveles de presion sonora segun una realizacion de la presente invencion. En referencia a la Figura 5A, 51 es una senal de entrada, un eje horizontal representa puntos de muestreo y un eje vertical representa la amplitud normalizada. La figura incluye una interrupcion abrupta que ocurre en multiples ubicaciones y que tiene una duracion relativamente breve. En la Figura 5B, se ofrecen por separado curvas de un nivel de presion sonora total 52, un nivel de presion sonora 53 de componente tonal, y un nivel de presion sonora 54 de componente no tonal, donde un eje horizontal representa puntos de muestreo, y un eje vertical representa un valor de un nivel de presion sonora. Debido a que todas las caractensticas de niveles de presion sonora en ubicaciones de interrupcion 55 en la Figura 5A cumplen con la condicion anterior, esto indica que la interrupcion en estas ubicaciones esta ubicada en un area con componentes tonales relativamente ricos y que es una interrupcion abrupta real.
E46-2. Para otro resultado detectado en la deteccion aproximada, incluyendo un comienzo abrupto o un final abrupto que ocurren individualmente, se puede determinar, segun un cambio de un nivel de presion sonora de componente tonal de la trama kesima, si la excepcion abrupta potencial de una senal de voz es una excepcion abrupta real.
Para una senal de voz normal, se puede detectar un cambio repentino de energfa relativamente evidente al comienzo de la deteccion aproximada. Sin embargo, un proceso variable en el que un componente tonal de la senal de voz normal aumenta de repente es inevitablemente una transicion natural. Si sp/_tona/(k) aumenta excesivamente rapido, indica que el proceso variable en el que el componente tonal de la senal de voz normal aumenta de repente no es natural, y su comienzo correspondiente es un comienzo abrupto. Un principio para detectar un final abrupto es similar a este.
La Figura 6A y la Figura 6B son diagramas esquematicos de curvas de distribucion de niveles de presion sonora segun otra realizacion de la presente invencion. En referencia a la Figura 6A, 61 es una senal de entrada, un eje horizontal representa puntos de muestreo y un eje vertical representa la amplitud normalizada. En la Figura 6B, se ofrece por separado un nivel de presion sonora total 62, un nivel de presion sonora 63 de componente tonal y un nivel de presion sonora 64 de componente no tonal. En la Figura 6B, una flecha 65 representa un cambio de tendencia de sp/_tona/(k) en una ubicacion de comienzo natural y una flecha 66 representa un cambio de tendencia de sp/_tona/(k) en una ubicacion de comienzo abrupto. Tal y como se muestra en la figura, el sp/_tona/(k) en la ubicacion de comienzo abrupto aumenta rapidamente, y ocurre una transicion natural en el cambio de tendencia de sp/_tona/(k) en la ubicacion del comienzo natural.
Las etapas para detectar un comienzo abrupto incluyen E46-2-1 y E46-2-2. Si E46-2-1 es verdadera, se determina ademas si E46-2-2 es verdadera. Si E46-2-2 es verdadera, el comienzo abrupto potencial de una senal de voz es un comienzo abrupto real; y si E46-2-2 es falsa, el comienzo abrupto no es un comienzo abrupto real. Si E46-2-1 es falsa, no es necesario determinar si E46-2-2 es verdadera, y el comienzo abrupto potencial de una senal de voz ciertamente no es un comienzo abrupto real.
E46-2-1. Determinar si se cumple cualquiera de las condiciones siguientes j o m.
j) (sp/_total(k)-sp/_total(k-1)>a6) y (spl_total(k-1) y spl_total(k-2) aumentan ligeramente), donde k>2, y se preestablece que un nivel de presion sonora total de la trama 0y un nivel de presion sonora total de la 1era trama aumentan ligeramente.
m) (sp/_tota/(k)-sp/_tota/(k-2)>a6),
(sp/_tota/(k)>sp/_tota/(k-1)),
(sp/_tota/(k-1)>sp/_tota/(k-2)), y
(sp/_tota/(k-1) y sp/_tota/(k-2) aumentan ligeramente), donde k>2, y se preestablece que un nivel de presion sonora total de la trama 0y un nivel de presion sonora total de la 1era trama aumentan ligeramente.
Si se cumple cualquiera de las condiciones j o m, se determina que sp/_tota/(k) de la trama kesima aumenta excesivamente rapido. Entonces, se realiza la etapa E46-2-2. Si no se cumple ninguna de las condiciones j o m, no es necesario determinar si E46-2-2 es verdadera, y el comienzo abrupto potencial de una senal de voz ciertamente no es un comienzo abrupto real.
Que el nivel de presion sonora total aumente ligeramente es diferente a que el nivel de presion sonora total aumente excesivamente rapido. El aumento lento se refiere a que no se cumple ninguna de las condiciones anteriores j y m para determinar que el aumento es excesivamente rapido. Se ha de notar espedficamente en la presente memoria que, en el procesamiento real, se establecen inicialmente diversas tramas iniciales para que aumenten ligeramente, y que la determinacion solo comienza en una trama posterior a las diversas tramas anteriores. Debido a que cada trama dura solo decenas de milisegundos en la aplicacion real, se omiten los resultados de deteccion de las diversas tramas iniciales.
E46-2-2. Si se detecta, segun la condicion j o m, que uno de sp/_tota/(k), sp/_tota/(k-1), y sp/_tota/(k+1) aumenta excesivamente rapido, determinar si se cumple alguna de las siguientes condiciones: n y p.
n) (sp/_tona/(k+1)>a7),
5
10
15
20
25
30
35
40
45
(sp/_tona/(k)<as),
(spl_tonal(k+1)-sp_no_tonal(k)> 0), y (sp/_no_tona/(k-1)<ag).
P) (spl_tonal(k+2)>aio),
(spl_tonal(k+1)<an),
(spl_tonal(k+2)-sp_no_tonal(k+1)> 0),y (spl_no_tonal(k)< ai2).
Si se cumple cualquiera de las condiciones, n o p, la excepcion abrupta potencial de una senal de voz incluida en el primer penodo de tiempo meta incluido en la trama kesima es un comienzo abrupto real de una senal de voz. Si no se cumple ninguna de las condiciones n o p, la excepcion abrupta potencial de una senal de voz incluida en el primer penodo de tiempo meta incluido en la trama kesima no es un comienzo abrupto real.
Ademas, las etapas de deteccion de final abrupto incluyen E46-2-3 y E46-2-4. Si E46-2-3 es verdadera, se determina ademas si E46-2-4 es verdadera. Si E46-2-4 es verdadera, el final abrupto potencial de una senal de voz es un final abrupto real; y, si E46-2-4 es falsa, el final abrupto potencial de una senal de voz no es un final abrupto real. Si S46-2-3 es falsa, no es necesario determinar si E46-2-4 es verdadera, y el final abrupto potencial de una senal de voz ciertamente no es un final abrupto real. E46-2-3.
Determinar si se cumple cualquiera de las condiciones q o r.
q) (sp/_tota/(k-1)-sp/_tota/(k)>aa) y (spl_total(k-1) y spl_total(k-2) disminuyen ligeramente), donde k>2, y se preestablece que un nivel de presion sonora total de la trama 0y un nivel de presion sonora total de la 1era trama disminuyen ligeramente.
r) (sp/_tota/(k-2)-sp/_tota/(k)>aa),
(sp/_tota/(k-1)> sp/_tota/(k)),
(sp/_tota/(k-2)>sp/_tota/(k-1)), y
(sp/_tota/(k-1) y sp/_tota/(k-2) disminuyen ligeramente), donde k>2, y se preestablece que un nivel de presion sonora total de la trama 0y un nivel de presion sonora total de la 1era trama disminuyen ligeramente.
Si sp/_tona/(k) disminuye excesivamente rapido, indica que sp/_tota/(k) de la trama kesima disminuye excesivamente rapido. Entonces, se realiza la etapa E46-2-4. Si no se cumple ninguna de las condiciones q o r, no es necesario determinar ademas si E46-2-4 es verdadera, y el final abrupto potencial de una senal de voz ciertamente no es un final abrupto real.
Que el nivel de presion sonora total disminuya ligeramente es diferente a que el nivel de presion sonora total disminuya excesivamente rapido. La disminucion lenta se refiere a que no se cumple ninguna de las condiciones anteriores q y r para determinar que la disminucion es excesivamente rapida. Se ha de notar espedficamente en la presente memoria que, en el procesamiento real, se establecen inicialmente diversas tramas iniciales para que disminuyan ligeramente y que, la determinacion solo comienza en una trama posterior a las diversas tramas anteriores. Debido a que cada trama dura solo decenas de milisegundos en la aplicacion real, se omiten los resultados de deteccion de las diversas tramas iniciales.
E46-2-4. Si se detecta, segun la condicion q o r, que uno de sp/_tota/(k), sp/_tota/(k-1), y sp/_tota/(k+1) disminuye excesivamente rapido, determinar si se cumple cualquiera de las siguientes condiciones s o t.
s) (sp/_tona/(k-1)>a7),
(sp/_tona/(k) <as),
(sp/_tona/(k-1)-sp_no_tona/(k)>0), y (sp/_no_tona/(k+1)<ag), donde i>1.
t) (sp/_tona/(k-2)>aio),
(sp/_tona/(k-1)<aii),
(sp/_tona/(k-1)-sp_no_tona/(k-2)> 0), y (sp/_no_tona/(k)<ai2), donde i>2.
5
10
15
20
25
30
35
40
45
50
55
En esta realizacion, a@=25, ai-41, aio=50, y a8=ag=an=ai2=10.
Si se cumple cualquiera de las condiciones s o t, la excepcion abrupta potencial de una senal de voz incluida en el primer penodo de tiempo meta incluido en la trama kesima es un final abrupto real de una senal de voz. Si no se cumple ninguna de las condiciones s o t, la excepcion abrupta potencial de una senal de voz incluida en el primer penodo de tiempo meta incluido en la trama kesima no es un final abrupto real.
Esta realizacion de la presente invencion ofrece un metodo para detectar una senal de voz, donde se puede determinar una excepcion abrupta real de una senal de voz al detectar primero una excepcion abrupta potencial de una senal de voz, y analizar adicionalmente una caractenstica de tono de la excepcion abrupta potencial de una senal de voz, de manera que la precision en la deteccion de una excepcion abrupta de una senal de voz mejore de manera eficaz.
La Figura 1A es un diagrama de bloque esquematico de un aparato 10 para detectar una senal de voz segun una realizacion de la presente invencion. El aparato 10 incluye: una primera unidad de deteccion 11, una unidad de entramado 12, y una segunda unidad de deteccion 13.
La primera unidad de deteccion 11 esta configurada para: realizar, en una unidad de longitud de trama de primer penodo de tiempo, un entramado de una muestra de voz continua para obtener multiples primeros penodos de tiempo, detectar energfa en cada uno de los primeros penodos de tiempo, y determinar un primer penodo de tiempo meta que incluye una excepcion abrupta potencial de una senal de voz mediante el analisis de una relacion entre la energfa de los multiples primeros penodos de tiempo, donde la excepcion abrupta potencial de una senal de voz incluye una de las siguientes situaciones: una interrupcion abrupta potencial, un comienzo abrupto, y un final abrupto de una senal de voz.
La unidad de deteccion 12 esta configurada para: realizar, en una unidad de longitud de trama de segundo penodo de tiempo, un entramado de la muestra de voz continua para obtener multiples segundos penodos de tiempo, donde una longitud de trama de cada uno de los segundos penodos de tiempo es una integral multiple de la longitud de trama de primer penodo de tiempo, y un segundo penodo de tiempo que incluye el primer penodo de tiempo meta es un segundo penodo de tiempo meta.
La segunda unidad de deteccion 13 esta configurada para: procesar cada uno de los segundos penodos de tiempo para adquirir una caractenstica de tono, y determinar, mediante el analisis de una caractenstica de tono de al menos uno de los segundos penodos de tiempo que incluye al menos uno de los segundos penodos de tiempo meta, si la excepcion abrupta potencial de una senal de voz incluida en el primer penodo de tiempo incluida en el segundo penodo de tiempo meta es una excepcion abrupta real de una senal de voz.
Esta realizacion de la presente invencion ofrece un aparato para detectar una senal de voz, donde se puede determinar una excepcion abrupta real de una senal de voz, detectando primero una excepcion abrupta potencial de una senal de voz, y analizando adicionalmente una caractenstica de tono de la excepcion abrupta potencial de una senal de voz, de manera que la precision en la deteccion de una excepcion abrupta de una senal de voz mejore de manera eficaz.
En otra realizacion, la Figura 1B es un diagrama de bloque esquematico de un aparato 10 para detectar una senal de voz segun otra realizacion de la presente invencion. A diferencia del aparato 10 de la Figura 1A, la primera unidad de deteccion 11 puede ademas incluir, espedficamente: un primer modulo de adquisicion 110 y un primer modulo de determinacion 115; y la segunda unidad de deteccion 13 puede ademas incluir, espedficamente: un segundo modulo de adquisicion 130 y un segundo modulo de determinacion 135.
El primer modulo de adquisicion 110 esta configurado para: realizar un entramado de la muestra de voz continua en una unidad de longitud de trama de primer penodo de tiempo, para dividir la muestra de voz continua en los multiples primeros penodos de tiempo segun un orden cronologipo, y adquirir energfa tmma_ene^a_corta(i) de cada uno de los primeros penodos de tiempo, donde la trama iesima es el iesimo primer penodo de tiempo en los multiples primeros penodos de tiempo, e i es un numero natural.
De manera opcional, como una realizacion diferente, el primer modulo de determinacion 115 esta configurado para: si la relacion entre la energfa de los primeros penodos de tiempo cumple con (trama_energ^a_corta(/-1)- trama_energ^a_corta(i)>a2) y (trama_energ^a_corta(/)<a1), determinar que la trama iesima es un primer penodo de tiempo meta que incluye un final abrupto potencial de una senal de voz, donde a1 y a2 son un primer umbral preestablecido y un segundo umbral preestablecido, respectivamente, e i>1.
De manera opcional, como una realizacion diferente, el primer modulo de determinacion 115 esta configurado para: si la relacion entre la energfa de los primeros penodos de tiempo cumple con (tmma_ene^a_corta(/-2y trama_energ^a_corta(i)>a2) y (trama_energ^a_corta(/)<a1), donde a-i y a2 es un primer umbral preestablecido y un segundo umbral preestablecido, respectivamente, y ni la trama (i-1)esima ni la trama (i-2)esima es un primer penodo de tiempo meta que incluye un final abrupto potencial de una senal de voz, determinar que la trama iesima es el primer penodo de tiempo meta que incluye un final abrupto potencial de una senal de voz, donde i>2 y la trama 0 y la 1era trama estan preestablecidas como primeros penodos de tiempo que no incluyen un final abrupto potencial de una senal de voz.
5
10
15
20
25
30
35
40
45
50
55
De manera opcional, como una realizacion diferente, el primer modulo de determinacion 715 esta configurado para: si la relacion entre la ene^a de los primeros penodos de tiempo cumple con (trama_energ^a_corta(i-3)- trama_energ/a_corta(/)>a2) y (trama_energ^a_corta(/)<a1), donde ai y a2 son un primer umbral preestablecido y un segundo umbral preestablecido, respectivamente, y ninguna de las tramas comprendidas entre la trama (i-1)esima y la trama (i-3)esima es un primer penodo de tiempo meta que incluye un final abrupto potencial, determinar que la trama iesima es el primer penodo de tiempo meta que incluye un final abrupto potencial de una senal de voz, donde i>3 y la trama 0, la 1era trama y la 2da trama estan preestablecidas como primeros penodos de tiempo que no incluyen un final abrupto potencial de una senal de voz.
De manera opcional, como una realizacion diferente, el primer modulo de determinacion 715 esta configurado para: si la relacion entre la energfa de los primeros penodos de tiempo cumple con (trama_ene^a_coiia(i)- tmma_ene^a_coiia(/-1)>a2) y (trama_energ^a_corta(/-1)<a1), determinar que la trama iesima es un primer penodo de tiempo meta que incluye un comienzo abrupto potencial de una senal de voz, donde ai y a2 son un primer umbral preestablecido y un segundo umbral preestablecido, respectivamente, e i>1.
De manera opcional, como una realizacion diferente, el primer modulo de determinacion 715 esta configurado para: si la relacion entre la energfa de los primeros penodos de tiempo cumple con (trama_energ^a_corta(/)- trama_energ/a_corta(/-2)>a2) y (trama_energ^a_corta(/-2)<a1), donde ai y a2 son un primer umbral preestablecido y un segundo umbral preestablecido, respectivamente, y ni la trama (i-i)esima ni la trama (i-2)esima es un primer penodo de tiempo meta que incluye un comienzo abrupto potencial de una senal de voz, determinar que la trama iesima es el primer penodo de tiempo meta que incluye un comienzo abrupto potencial de una senal de voz, donde i>2 y la trama 0 y laiera trama estan preestablecidas como primeros penodos de tiempo que no incluyen un comienzo abrupto potencial de una senal de voz.
De manera opcional, como una realizacion diferente, el primer modulo de determinacion 7i5 esta configurado para: si la relacion entre la energfa de los primeros penodos de tiempo cumple con (trama_energ^a_corta(/)- trama_energ^a_corta(/-3)>a2) y (trama_energ/a_corta(/-3)<ai), donde ai y a2 son un primer umbral preestablecido y un segundo umbral preestablecido, respectivamente, y ninguna de las tramas (i-i)esima a la trama (i-3)esima es un primer penodo de tiempo meta que incluye un comienzo abrupto potencial de una senal de voz, determinar que la trama iesima es el primer penodo de tiempo meta que incluye un comienzo abrupto potencial de una senal de voz, donde i>3 y la trama 0, la iera trama y la 2da trama estan preestablecidas como primeros penodos de tiempo que no incluyen un comienzo abrupto potencial de una senal de voz.
El segundo modulo de adquisicion 730 esta configurado para: realizar un procesamiento de deteccion de tono en los multiples segundos penodos de tiempo segun un orden cronologico; y adquirir un nivel de presion sonora total sp/_tota/(k), un nivel de presion sonora de coimponente tonal sp/_tona/(k), y un nivel de presion sonora _ de componente no tonal sp/_no_tona/(k) de la trama kesima, donde la trama kesima es el segundo penodo de tiempo kesimo en los multiples segundos penodos de tiempo y k es un numero natural.
De manera opcional, como una realizacion diferente, el segundo modulo de determinacion 735 esta configurado para: si una caractenstica de tono del segundo penodo de tiempo meta cumple con sp/_tona/(k)>a3, determinar que la excepcion abrupta potencial de una senal de voz incluida en la trama kesima es una interrupcion abrupta real de una senal de voz; o, si una caractenstica de tono del segundo penodo de tiempo meta cumple con (a4^spl_tonal(k)<a3) y (spl_total(k)>=a5), determinar que la excepcion abrupta potencial de una senal de voz incluida en la trama kesima es una interrupcion abrupta real de una senal de voz, donde a3, a4 y a5 son un tercer umbral preestablecido, un cuarto umbral preestablecido, y un quinto umbral preestablecido, respectivamente.
De manera opcional, como una realizacion diferente, el segundo modulo de determinacion 735 esta configurado para determinar si uno de spl_total(k), spl_total(k-i), y spl_total(k+i) aumenta excesivamente rapido, y si uno de spl_total(k), spl_total(k-i), y spl_total(k+i) aumenta excesivamente rapido, y la caractenstica de tono del segundo penodo de tiempo cumple con:
(spl_tonal(k+i)>a7),
(spl_tonal(k)<as),
(sp/_tonal(k+i)-sp_no_tonal(k)>0), y
(sp/_no_tona/(k-i)<ag),
determinar que la excepcion abrupta potencial de una senal de voz incluida en la trama kesima es un comienzo abrupto real de una senal de voz; o determinar si uno de sp/_tota/(k), sp/_tota/(k-i), y sp/_tota/(k+i) aumenta excesivamente rapido, y si uno de sp/_tota/(k), sp/_tota/(k-i), y sp/_tota/(k+i) aumenta excesivamente rapido, y la caractenstica de tono del segundo penodo de tiempo cumple con:
(sp/_tona/(k+2)>ai0),
(sp/_tona/(k+i)<aii),
(sp/_tona/(k+2)-sp_no_tona/(k+i)>0), y
5
10
15
20
25
30
35
40
45
50
(sp/_no _tonal(k)<ai2),
determinar que la excepcion abrupta potencial de una senal de voz incluida en la trama kesima es un comienzo abrupto real de una senal de voz, donde a7 hasta a12 son un septimo umbral preestablecido hasta un duodecimo umbral preestablecido; y determinar si uno de spl_total(k), spl_total(k-1), y spl_total(k+1) aumenta excesivamente rapido incluye: si la caractenstica de tono del segundo penodo de tiempo cumple con (spl_total(k)-spl_total(k-1)>a@) y (spl_total(k-1) y spl_total(k-2) aumentan ligeramente), determinar que spl_tonal(k) aumenta excesivamente rapido, donde k>2, y se preestablece que un nivel de presion sonora total de la trama 0 y un nivel de presion sonora total de la 1era trama aumenta ligeramente; o si la caractenstica de tono del segundo penodo de tiempo cumple con (spl_total(k)-spl_total(k-2)>a@), (spl_total(k)>spl_total(k-1)), (sp/_tota/(k-1)>sp/_tota/(k-2)), y (spl_total(k-1) y
spl_total(k-2) aumentan ligeramente), determinar que spl_tonal(k) aumenta excesivamente rapido, donde k>2, se preestablece que un nivel de presion sonora total de la trama 0 y un nivel de presion sonora total de la 1era trama aumentan ligeramente, y a@ es un sexto umbral preestablecido; o si la caractenstica de tono del segundo penodo de tiempo no cumple ninguna de las dos condiciones anteriores, determinar que spl_tonal(k) aumenta ligeramente.
De manera opcional, como una realizacion diferente, el segundo modulo de determinacion 735 esta configurado para determinar si uno de spl_total(k), spl_total(k-1), y spl_total(k+1) disminuye excesivamente rapido, y si uno de spl_total(k), spl_total(k-1), y spl_total(k+1) disminuye excesivamente rapido, y la caractenstica de tono del segundo penodo de tiempo cumple con:
(spl_tonal(k-1)>a7),
(spl_tonal(k)<as),
(spl_tonal(k-1)-sp_no_tonal(k)>0), y (sp/_no_tona/(k+1)<ag),
determinar que la excepcion abrupta potencial de una senal de voz incluida en la trama kesima es un final abrupto real de una senal de voz donde k>1; o determinar si uno de sp/_tota/(k), sp/_tota/(k-1), y sp/_tota/(k+1) disminuye excesivamente rapido, y si uno de sp/_tota/(k), sp/_tota/(k-1), y sp/_tota/(k+1) disminuye excesivamente rapido, y la caractenstica de tono del segundo penodo de tiempo cumple con:
(sp/_tona/(k-2)>a1o),
(sp/_tonal (k -1) < an),
(sp/_tona/(k-1)-sp_no_tona/(k-2)>0), y
(sp/_no_tona/(k) < a12),
determinar que la excepcion abrupta potencial de una senal de voz incluida en la trama kesima es un final abrupto real de una senal de voz, donde k>2, y a7 hasta a-i2 son un septimo umbral preestablecido a un duodecimo umbral preestablecido; y determinar si uno de sp/_tota/(k), sp/_tota/(k-1), y sp/_tota/(k+1) aumenta excesivamente rapido incluye: si la caractenstica de tono del segundo penodo de tiempo cumple con (sp/_tota/(k-1)-sp/_tota/(k)>a6) y (sp/_tota/(k-1) y sp/_tota/(k-2) disminuyen ligeramente), determinar que sp/_tota/(k) disminuye excesivamente rapido, donde k>2, y se preestablece que un nivel de presion sonora total de la trama 0 y un nivel de presion sonora total de la 1era trama disminuyen ligeramente; o si la caractenstica de tono del segundo penodo de tiempo cumple con (sp/_tota/(k-2)-sp/_tota/(k)>ae), (sp/_tota/(k-1)>sp/_tota/(k)), (sp/_tota/(k-2)>sp/_tota/(k-1)), y (sp/_tota/(k-1) y
sp/_tota/(k-2) disminuyen ligeramente), determinar que sp/_tota/(k) disminuye excesivamente rapido, donde k>2, y se preestablece que un nivel de presion sonora total de la trama 0 y un nivel de presion sonora total de la 1era trama disminuye ligeramente; o si ninguna de las dos condiciones anteriores se cumplen, determinar que sp/_tota/(k) disminuye ligeramente, donde a6 es un sexto umbral preestablecido.
El aparato 70 implementa los metodos 30 y 40. En aras de la brevedad, no se vuelven a brindar detalles espedficos en la presente memoria.
La Figura 8 es un diagrama de bloque esquematico de un aparato 80 para detectar una senal de voz segun otra realizacion de la presente invencion. El aparato 80 incluye componentes, tal y como un procesador 81 y una memoria 82, donde los componentes se comunican entre sf mediante un bus.
El procesador 81 esta configurado para ejecutar un programa de esta realizacion de la presente invencion que se almacena en la memoria 82 y realizar una comunicacion bi-direcccional con otro aparato mediante el bus.
La memoria 82 puede incluir una memoria RAM y una ROM, o cualquier medio de almacenamiento fijo, o un medio de almacenamiento movil, y se configura para almacenar un programa que pueda ejecutar esta realizacion de la presente invencion, o datos que van a ser procesados en esta realizacion de la presente invencion, o un resultado de deteccion para su posterior aplicacion.
5
10
15
20
25
30
35
40
45
50
55
60
La memoria 82 y el procesador 81 pueden estar integrados en un modulo ffsico al que se aplica esta realizacion de la presente invencion, y el programa que implementa esta realizacion de la presente invencion se almacena y opera en el modulo ffsico.
En esta realizacion de la presente invencion, el procesador 81 realiza, en una unidad de longitud de trama de primer penodo de tiempo, un entramado de una muestra de voz continua para obtener multiples primeros penodos de tiempo, detecta la energfa de cada uno de los primeros penodos de tiempo, y determina un primer penodo de tiempo meta que incluye una excepcion abrupta potencial de una senal de voz mediante el analisis de una relacion entre la energfa de los multiples primeros penodos de tiempo, donde la excepcion abrupta potencial de una senal de voz incluye una de las siguientes situaciones: interrupcion abrupta potencial, comienzo abrupto, y final abrupto de una senal de voz; realiza, en una unidad de longitud trama de segundo penodo de tiempo, un entramado de la muestra de voz continua para obtener multiples segundos penodos de tiempo, donde una longitud de trama de cada uno de los segundos penodos de tiempo es una integral multiple de la longitud de trama de primer penodo de tiempo, y un segundo penodo de tiempo que incluye el primer penodo de tiempo meta es un segundo penodo de tiempo meta; y procesa cada uno de los segundos penodos de tiempo para adquirir una caractenstica de tono, y determina, mediante el analisis de una caractenstica de tono de al menos uno de los segundos penodos de tiempo que incluye al menos uno de los segundos penodos de tiempo meta, si la excepcion abrupta potencial de una senal de voz incluida en el primer penodo de tiempo meta incluida en el segundo penodo de tiempo meta es una excepcion abrupta real de una senal de voz.
Despues de determinar si la excepcion abrupta potencial de una senal de voz es una excepcion abrupta real de una senal de voz, el procesador puede enviar el resultado a la memoria para su almacenamiento, de tal manera que se realice otro procesamiento.
El procesador 81 puede realizar espedficamente el entramado de una muestra de voz continua en una unidad de longitud de trama de primer penodo de tiempo, para dividir la muestra de voz continua en multiples primeros penodos de tiempo segun un orden cronologico, y adquirir energfa tmma_ene^a_corta(i) de cada uno de los primeros penodos de tiempo, donde la trama iesima es la trama iesima en los multiples primeros penodos de tiempo, e i es un numero natural; y a continuacion, mediante el analisis de relacion entre la energfa adquirida de los primeros penodos de tiempo y haciendo referencia a las condiciones a a f, determinar que la trama iesima es el primer penodo de tiempo meta que incluye una excepcion abrupta potencial de una senal de voz.
De manera opcional, como una realizacion diferente, el procesador 81 esta configurado para: si la relacion entre la energfa de los primeros penodos de tiempo cumple con (trama_energ^a_corta(/-2)-trama_energ^a_corta(/)>a2) y (trama_energ^a_corta(i)<a1), donde a1 y a2 son un primer umbral preestablecido y un segundo umbral preestablecido, respectivamente, y ni la trama (i-1)esima ni la trama (i-2)esima es un primer penodo de tiempo meta que incluye un final abrupto potencial de una senal de voz, determinar que la trama iesima es el primer penodo de tiempo meta que incluye un final abrupto potencial de una senal de voz, donde i>2 y la trama 0 y la 1era trama estan preestablecidas como primeros penodos de tiempo que no incluyen un final abrupto potencial de una senal de voz.
De manera opcional, como una realizacion diferente, el procesador 81 esta configurado para: si la relacion entre la energfa de los primeros penodos de tiempo cumple con (trama_energ^a_corta(/-3)-trama_energ^a_corta(i)>a2) y (trama_energ^a_corta(/)<a1), donde a1 y a2 son un primer umbral preestablecido y un segundo umbral preestablecido, respectivamente, y ninguna de las tramas desde la (i-1)esima a la trama (i-3)esima es un primer penodo de tiempo meta que incluye un final abrupto potencial, determinar que la trama iesima es el primer penodo de tiempo meta que incluye un final abrupto potencial de una senal de voz, donde i>3 y la trama 0, la 1era trama y la 2da trama estan preestablecidas como primeros penodos de tiempo que no incluyen un final abrupto potencial de una senal de voz.
De manera opcional, como una realizacion diferente, el procesador 81 esta configurado para: si la relacion entre la energfa de los primeros penodos de tiempo cumple con (trama_energ^a_corta(i)-trama_energ^a_corta(/-1)>a2) y (trama_energ^a_corta(/-1)<a1), determinar que la trama iesima es un primer penodo de tiempo meta que incluye un comienzo abrupto potencial de una senal de voz, donde a1 y a2 son un primer umbral preestablecido y un segundo umbral preestablecido, respectivamente, e i>1.
De manera opcional, como una realizacion diferente, el procesador 81 esta configurado para: si la relacion entre la energfa de los primeros penodos de tiempo cumple con (trama_energ^a_corta(i)-trama_energ^a_corta(/-2)>a2) y (tramajenerg'ia_corta(/-2)<a1), donde a1 y a2 son un primer umbral preestablecido y un segundo umbral preestablecido, respectivamente, y ni la trama (i-1)esima ni la trama (i-2)esima es un primer penodo de tiempo meta que incluye un comienzo abrupto potencial de una senal de voz, determinar que la trama iesima es el primer penodo de tiempo meta que incluye un comienzo abrupto potencial de una senal de voz, donde i>2 y la trama 0 y la 1era trama estan preestablecidas como primeros penodos de tiempo que no incluyen un comienzo abrupto potencial de una senal de voz.
De manera opcional, como una realizacion diferente, el procesador 81 esta configurado para: si la relacion entre la energfa de los primeros penodos de tiempo cumple con (trama_energ^a_corta(/)-trama_energ^a_corta(/-3)>a2) y (trama_energ^a_corta(/-3)<a1), donde a1 y a2 son un primer umbral preestablecido y un segundo umbral preestablecido, respectivamente, y ninguna de las tramas comprendidas entre la trama (i-1)esima y la trama (i-3)esima es un primer penodo de tiempo meta que incluye un comienzo abrupto potencial de una senal de voz, determinar
10
15
20
25
30
35
40
45
que la trama iesima es el primer penodo de tiempo meta que incluye un comienzo abrupto potencial de una senal de voz, donde i>3 y la trama 0, la 1era trama y la 2da trama estan preestablecidas como primeros penodos de tiempo que no incluyen un comienzo abrupto potencial de una senal de voz.
A continuacion, el procesador 81 esta configurado para: realizar un procesamiento de deteccion de tono en uno o mas segundos penodos de tiempo segun un orden cronologico; y adquirir un nivel de presion sonora total (spl_total(k)), un nivel de presion sonora de componente tonal (spl_tonal(k)), y un nivel de presion sonora de componente no tonal (spl_no_tonal(k)) de la trama kesima, donde la trama kesima es el segundo penodo de tiempo kesimo en los multiples segundos penodos de tiempo y k es un numero natural. Finalmente, el procesador 81 determina, mediante el analisis de si la caractenstica de tono del segundo penodo de tiempo meta cumple las condiciones g a t, si la excepcion abrupta potencial de una senal de voz incluida en la trama kesima es una interrupcion abrupta real de una senal de voz.
De manera opcional, como una realizacion diferente, el procesador 81 esta configurado para: si una caractenstica de tono del segundo penodo de tiempo meta cumple con spl_tonal(k)>a3, determinar que la excepcion abrupta potencial de una senal de voz incluida en la trama kesima es una interrupcion abrupta real de una senal de voz; o, si una caractenstica de tono del segundo penodo de tiempo meta cumple con (a4^spl_tonal(k)<S3) y (spl_total(k)>=a5), determinar que la excepcion abrupta potencial de una senal de voz incluida en la trama kesima es una interrupcion abrupta real de una senal de voz, donde a3, a4 y a5 son un tercer umbral preestablecido, un cuarto umbral preestablecido, y un quinto umbral preestablecido, respectivamente. De manera opcional, como una realizacion diferente, el procesador 81 esta configurado para: determinar si uno de spl_total(k), spl_total(k-1), y spl_total(k+1) aumenta excesivamente rapido, y si uno de spl_total(k), spl_total(k-1), y spl_total(k+1) aumenta excesivamente rapido, y la caractenstica de tono del segundo penodo de tiempo cumple con:
(spl_tonal (k+1)>a7),
(spl_tonal(k)< as),
(spl_tonal(k+1)-sp_no_tonal(k)>0), y (spl_no_tonal(k -1) < ag),
determinar que la excepcion abrupta potencial de una senal de voz incluida en la trama kesima es un comienzo abrupto real de una senal de voz; o determinar si uno de spl_total(k), spl_total(k-1), y spl_total(k+1) aumenta excesivamente rapido, y si uno de spl_total(k), spl_total(k-1), y spl_total(k+1) aumenta excesivamente rapido, y la caractenstica de tono del segundo penodo de tiempo cumple con:
(spl_tonal(k+2)>a1o),
(spl_tonal(k+1)<ay\),
(spl_tonal(k+2)-sp_no_tonal(k+1)>0), y
(spl_no_tonal(k) < a12),
determinar que la excepcion abrupta potencial de una senal de voz incluida en la trama kesima es un comienzo abrupto real de una senal de voz, donde a7 a a-i2 son un septimo umbral preestablecido hasta un duodecimo umbral preestablecido; y determinar si uno de spl_total(k), spl_total(k-1), y spl_total(k+1) aumenta excesivamente rapido incluye: si la caractenstica de tono del segundo penodo de tiempo cumple con (spl_total(k)-spl_total(k-1)>a@) y (spl_total(k-1) y spl_total(k-2) aumentan ligeramente), determinar que spl_tonal(k) aumenta excesivamente rapido, donde k>2, y se preestablece que un nivel de presion sonora total de la trama 0 y un nivel de presion sonora total de la 1era trama aumenta ligeramente; o si la caractenstica de tono del segundo penodo de tiempo cumple con (spl_total(k)-spl_total(k-2)>a@), (spl_total(k)>spl_total(k-1)), (spl_total(k-1)>spl_total(k-2)), y (spl_total(k-1) y
spl_total(k-2) aumentan ligeramente), determinar que spl_tonal(k) aumenta excesivamente rapido, donde k>2, se preestablece que un nivel de presion sonora total de la trama 0 y un nivel de presion sonora total de la 1era trama aumentan ligeramente, y a@ es un sexto umbral preestablecido; o si la caractenstica de tono del segundo penodo de tiempo no cumple ninguna de las dos condiciones anteriores, determinar que spl_tonal(k) aumenta ligeramente.
De manera opcional, como una realizacion diferente, el procesador 81 esta configurado para determinar si uno de spl_total(k), spl_total(k-1), y spl_total(k+1) disminuye excesivamente rapido, y si uno de spl_total(k), spl_total(k-1), y spl_total(k+1) disminuye excesivamente rapido, y la caractenstica de tono del segundo penodo de tiempo cumple con:
(spl_tonal(k-1)>a7),
(spl_tonal(k)< as),
(spl_tonal(k-1)-sp-no_tonal(k)>0), y (spl_no_tonal(k+1)<ag),
5
10
15
20
25
30
35
40
45
50
55
determinar que la excepcion abrupta potencial de una senal de voz incluida en la trama kesima es un final abrupto real de una senal de voz, donde k>1; o determinar si uno de sp/_tota/(k), sp/_tota/(k-1), y spl_total(k+1) disminuye excesivamente rapido, y si uno de spl_total(k), spl_total(k-1), y spl_total(k+1) disminuye excesivamente rapido, y la caractenstica de tono del segundo penodo de tiempo cumple con:
(sp/_tonal(k-2)>aio),
(sp/_tonal(k-1)<an),
(sp/_tona/(k-1)-sp_no_tona/(k-2)>0), y
(sp/_no_tona/(k)<ai2),
determinar que la excepcion abrupta potencial de una senal de voz incluida en la trama kesima es un final abrupto real de una senal de voz, donde k>2, y a7 a ai2 son un septimo umbral preestablecido a un duodecimo umbral preestablecido; y determinar si uno de sp/_tota/(k), sp/_tota/(k-1), y sp/_tota/(k+1) aumenta excesivamente rapido incluye: si la caractenstica de tono del segundo penodo de tiempo cumple con (sp/_tota/(k-1)-sp/_tota/(k)>ae) y (sp/_tota/(k-1) y sp/_tota/(k-2) disminuyen ligeramente), determinar que sp/_tota/(k) disminuye excesivamente rapido, donde k>2, y se preestablece que un nivel de presion sonora total de la trama 0 y un nivel de presion sonora total de la 1era trama disminuye ligeramente; o si la caractenstica de tono del segundo penodo de tiempo cumple con (sp/_tota/(k-2)-sp/_tota/(k)>a6), (sp/_tota/(k-1)>sp/_tota/(k)), (sp/_tota/(k-2)>sp/_tota/(k-1)), y (sp/_tota/(k-1) y
sp/_tota/(k-2) disminuyen ligeramente), determinar que sp/_tota/(k) disminuye excesivamente rapido, donde k>2, y se preestablece que un nivel de presion sonora total de la trama 0 y un nivel de presion sonora total de la 1era trama disminuye ligeramente; o si ninguna de las dos condiciones anteriores se cumple, determinar que sp/_tota/(k) disminuye ligeramente, donde a6 es un sexto umbral preestablecido.
El aparato 80 implementa los metodos 30 y 40 en las realizaciones de la presente invencion. En aras de la brevedad, no se vuelven a brindar detalles espedficos en la presente memoria.
Esta realizacion de la presente invencion ofrece un aparato para detectar una senal de voz, donde se puede determinar una excepcion abrupta real de una senal de voz mediante, primero, la deteccion de una excepcion abrupta potencial de una senal de voz, y un analisis adicional de una caractenstica de tono de la excepcion abrupta potencial de una senal de voz, de manera que la precision en la deteccion de una excepcion abrupta de una senal de voz mejore de manera eficaz.
Una persona con experiencia ordinaria en la tecnica puede ser consciente de que, combinandose con los ejemplos descritos en las realizaciones descritas en esta memoria descriptiva, las etapas de algoritmos y unidades se pueden implementar mediante un hardware electronico o una combinacion de un software y un hardware electronico. Que las funciones se realicen mediante un hardware o software depende de las aplicaciones particulares y de las condiciones en cuanto a limitaciones de diseno de las soluciones tecnicas. Un experto en la tecnica puede utilizar diferentes metodos para implementar las funciones descritas para cada aplicacion particular, pero no se ha de considerar que la implementacion excede el alcance de la presente invencion.
Un experto en la tecnica comprendera claramente que, con el proposito de realizar una descripcion conveniente y breve, para un proceso de trabajo detallado del sistema, aparato y unidad anteriores es posible que se haga referencia a los procesos correspondientes en las realizaciones de metodo anteriores, y que los detalles no se vuelven a describir en la presente memoria.
En las diversas realizaciones provistas en la presente aplicacion, se ha de comprender que el sistema, aparato y metodo descritos se pueden implementar de otras maneras. Por ejemplo, las realizaciones de aparato descritas son meramente ejemplos. Por ejemplo, la division de unidad es meramente una division de funcion logica y en la implementacion real la division puede ser otra. Por ejemplo, se pueden combinar o integrar en otro sistema multiples unidades o componentes, o algunas caractensticas se pueden ignorar o no llevarse a cabo. Ademas, los acoplamientos mutuos representados o descritos o los acoplamientos directos o conexiones de comunicacion se pueden implementar a traves de algunas interfaces. Los acoplamientos indirectos o conexiones de comunicacion entre los aparatos o unidades se pueden implementar de forma electronica, mecanica o de otra forma.
Las unidades descritas como partes separadas pueden o no estar ffsicamente separadas, y las partes representadas como unidades pueden o no ser unidades ffsicas, estar ubicadas en una posicion o pueden estar distribuidas en multiples unidades de red. Algunas o todas las unidades se pueden seleccionar segun las necesidades reales para lograr los objetivos de las soluciones de las realizaciones.
Ademas, las unidades funcionales en las realizaciones de la presente invencion pueden estar integradas en una unica unidad de procesamiento, o cada una de las unidades puede existir ffsicamente por separado, o dos o mas unidades pueden estar integradas en una unica unidad.
Cuando las funciones se implementan en forma de unidad funcional de software y se venden o usan como un producto independiente, las funciones se pueden almacenar en un medio de almacenamiento legible por ordenador. Partiendo de esta premisa, las soluciones tecnicas de la presente invencion, en esencia, o la parte que contribuye a la tecnica anterior, o algunas de las soluciones tecnicas, se pueden implementar en forma de producto de software.
21
El producto de software esta almacenado en un medio de almacenamiento, e incluye diversas instrucciones para indicar a un dispositivo informatico (que puede ser un ordenador personal, un servidor o un dispositivo de red) que realice alguna o todas las etapas de los metodos descritos en las realizaciones de la presente invencion. El medio de almacenamiento anterior incluye: cualquier medio que pueda almacenar un codigo de programa, tal y como un 5 unidad flash USB, un disco duro removible, una memoria de solo lectura (ROM, memoria de solo lectura),una memoria de acceso aleatorio (RAM, memoria de acceso aleatorio), un disco magnetico, o un disco optico.
Las descripciones anteriores son meramente formas de implementacion espedficas de la presente invencion, pero no estan concebidas para limitar el alcance de proteccion de la presente invencion, el cual se define mediante las reivindicaciones adjuntas.
10

Claims (22)

  1. 5
    10
    15
    20
    25
    30
    35
    40
    45
    50
    55
    REIVINDICACIONES
    1. Un metodo para detectar una senal de voz, que comprende:
    realizar, en una unidad de longitud de trama de primer segmento de tiempo, un entramado de una muestra de voz continua para obtener multiples primeros penodos de tiempo, detectar energfa en cada uno de los primeros penodos de tiempo, y determinar un primer penodo de tiempo meta que comprende una excepcion abrupta potencial de una senal de voz mediante el analisis de una relacion entre la energfa de los multiples primeros penodos de tiempo, en donde la excepcion abrupta potencial de una senal de voz comprende una de las siguientes situaciones: interrupcion abrupta potencial, comienzo abrupto y final abrupto de una senal de voz, y en donde una interrupcion abrupta corresponde a una ocurrencia de un par que comprende un final abrupto y un comienzo abrupto en la misma seccion de un segmento de la senal de voz;
    realizar, en una unidad de longitud de trama de segundo penodo de tiempo, un entramado de la muestra de voz continua para obtener multiples segundos penodos de tiempo, en donde una longitud de trama de cada uno de los segundos penodos de tiempo es una integral multiple de la longitud de trama de primer penodo de tiempo, y un segundo penodo de tiempo que comprende el primer penodo de tiempo meta es un segundo penodo de tiempo meta; y
    procesar cada uno de los segundos penodos de tiempo para adquirir una caractenstica de tono, en donde el procesamiento de caractenstica de tono comprende realizar una transformada de Fourier rapida en cada uno de los segundos penodos de tiempo para adquirir un espectro de densidad de potencia, determinar un punto maximo local segun el espectro de densidad de potencia, y analizar un segmento de un intervalo de dominio de frecuencia centrado en el punto maximo local para determinar si existe un componente tonal en una banda de frecuencia en la que se ubica el punto maximo local; y
    determinar, mediante el analisis de la caractenstica de tono adquirida de al menos uno de los segundos penodos de tiempo que comprende al menos uno de los primeros penodos de tiempo meta, si la excepcion abrupta potencial de una senal de voz comprendida en el primer penodo de tiempo meta comprendido en el segundo penodo de tiempo meta es una excepcion abrupta real de una senal de voz.
  2. 2. El metodo segun la reivindicacion 1, en donde realizar, en una unidad de longitud de trama de primer de penodo de tiempo, un entramado de una muestra de voz continua para obtener multiples primeros penodos de tiempo, detectando energfa de cada uno de los primeros penodos de tiempo comprende:
    realizar un entramado de la muestra de voz continua en una unidad de longitud de trama de primer penodo de tiempo, para dividir la muestra de voz continua en los multiples primeros penodos de tiempo segun un orden cronologico; y
    adquirir energfa trama_energia_corta(i) de cada uno de los primeros penodos de tiempo, en donde el periodo de tiempo iesimo es el iesimo primer penodo de tiempo en los multiples primeros penodos de tiempo, e i es un numero natural.
  3. 3. El metodo segun la reivindicacion 2, en donde la determinacion de un primer penodo de tiempo meta que comprende una excepcion abrupta potencial de una senal de voz mediante el analisis de una relacion entre la energfa de los primeros penodos de tiempo comprende:
    si la relacion entre la energfa de los primeros penodos de tiempo cumple con trama_energfa_corta(i-1)- trama_energfa_corta(i)>a2 y trama_energfa_corta(i)<ai, determinar que la trama iesima es un primer penodo de tiempo meta que comprende un final abrupto potencial de una senal de voz, donde ai y a2 son un primer umbral preestablecido y un segundo umbral preestablecido, respectivamente, e i>1.
  4. 4. El metodo segun la reivindicacion 2, en donde la determinacion de un primer penodo de tiempo meta que comprende una excepcion abrupta potencial de una senal de voz mediante el analisis de una relacion entre la energfa de los primeros penodos de tiempo comprende:
    si la relacion entre la energfa de los primeros penodos de tiempo cumple con trama_energia_corta(i-2)- trama_energia_corta(i)>a2 y trama_energfa_corta(i)<ai), en donde ai y a2 son un primer umbral preestablecido y un segundo umbral preestablecido, respectivamente, y ni la trama (i-1)esima ni la trama (i- 2)esima es un primer penodo de tiempo meta que comprende un final abrupto potencial de una senal de voz, determinar que la trama iesima es el primer penodo de tiempo meta que comprende un final abrupto potencial de una senal de voz, en donde i>2 y la trama 0 y la 1era trama estan preestablecidas como primeros penodos de tiempo que no comprenden un final abrupto potencial de una senal de voz.
  5. 5. El metodo segun la reivindicacion 2, en donde la determinacion de un primer penodo de tiempo meta que comprende una excepcion abrupta potencial de una senal de voz mediante el analisis de una relacion entre la energfa de los primeros penodos de tiempo comprende:
    5
    10
    15
    20
    25
    30
    35
    40
    45
    50
    55
    si la relacion entre la energfa de los primeros penodos de tiempo cumple con tmma_ene^a_corta(i- 3)- trama_energ^a_corta(/)>a2 y trama_energ^a_corta(/)<a1, en donde ai y a2 son un primer umbral preestablecido y un segundo umbral preestablecido, respectivamente, y ninguna de las tramas comprendidas entre la trama (i-1)esima y la trama (i-3)esima es un primer penodo de tiempo meta que comprende un final abrupto potencial, determinar que la trama iesima es el primer penodo de tiempo meta que comprende un final abrupto potencial de una senal de voz, en donde i>3 y la trama 0, la 1era trama y la 2da trama estan preestablecidas como primeros penodos de tiempo que no comprenden un final abrupto potencial de una senal de voz.
  6. 6. El metodo segun la reivindicacion 2, en donde la determinacion de un primer penodo de tiempo meta que comprende una excepcion abrupta potencial de una senal de voz mediante el analisis de una relacion entre la energfa de los primeros penodos de tiempo comprende:
    si la relacion entre la energfa de los primeros penodos de tiempo cumple con trama_ene^a_coiia(i)- trama_energ^a_corta(i-1)>a2 y trama_energ^a_corta(/-1)<a1, determinar que la trama iesima es un primer penodo de tiempo meta que comprende un comienzo abrupto potencial de una senal de voz, donde ai y a2 son un primer umbral preestablecido y un segundo umbral preestablecido, respectivamente, e i>1.
  7. 7. El metodo segun la reivindicacion 2, en donde la determinacion de un primer penodo de tiempo meta que comprende una excepcion abrupta potencial de una senal de voz mediante el analisis de una relacion entre la energfa de los primeros penodos de tiempo comprende:
    si la relacion entre la energfa de los primeros penodos de tiempo cumple con trama_ene^a_corta(/)- tmma_ene^a_coita(/-2)>a2 y trama_energ^a_corta(/-2)<a1), en donde ai y a2 son un primer umbral preestablecido y un segundo umbral preestablecido, respectivamente, y ni la trama (i-1)esima ni la trama (i- 2)esima es un primer penodo de tiempo meta que comprende un comienzo abrupto potencial de una senal de voz, determinar que la trama iesima es el primer a penodo de tiempo meta que comprende un comienzo abrupto potencial de una senal de voz, en donde i>2 y la trama 0 y la 1era trama estan preestablecidas como primeros penodos de tiempo que no comprenden un comienzo abrupto potencial de una senal de voz.
  8. 8. El metodo segun la reivindicacion 2, en donde la determinacion de un primer penodo de tiempo meta que comprende una excepcion abrupta potencial de una senal de voz mediante el analisis de una relacion entre la energfa de los primeros penodos de tiempo ademas comprende:
    si la relacion entre la energfa de los primeros penodos de tiempo cumple con trama_ene^a_corta(/)- tmma_enewa_corta(/-3)>a2 y trama_enewa_corta(/-3)<ai, en donde ai y a2 son un primer umbral preestablecido y un segundo umbral preestablecido, respectivamente, y ninguna de las tramas comprendidas entre la trama (i-1)esima y la trama (i-3)esima es un primer penodo de tiempo meta que comprende un comienzo abrupto potencial de una senal de voz, determinar que la trama iesima es el primer penodo de tiempo meta que comprende un comienzo abrupto potencial de una senal de voz, en donde i>3 y la trama 0, la 1era trama y la 2da trama estan preestablecidas como primeros penodos de tiempo que no comprenden un comienzo abrupto potencial de una senal de voz.
  9. 9. El metodo segun cualquiera de la reivindicacion 1, en donde el procesamiento de cada uno de los segundos penodos de tiempo para adquirir una caractenstica de tono comprende:
    realizar un procesamiento de deteccion de tono en los multiples segundos penodos de tiempo segun un orden cronologico; y
    adquirir un nivel de presion sonora total spl_total(k), un nivel de presion sonora de componente tonal spl_tonal(k), y un nivel de presion sonora de componente no tonal spl_no_tonal(k) de la trama kesima como caractensticas de tono de la trama kesima, en donde la trama kesima es el kesimo segundo penodo de tiempo en los multiples segundos penodos de tiempo y k es un numero natural.
  10. 10. El metodo segun la reivindicacion 9, en donde determinar, mediante el analisis de una caractenstica de tono de al menos uno de los segundos penodos de tiempo que comprende al menos uno de los primeros penodos de tiempo meta, si la excepcion abrupta potencial de una senal de voz comprendida en el primer penodo de tiempo comprendido en el segundo penodo de tiempo meta es una excepcion abrupta real de una senal de voz comprende:
    si una caractenstica de tono del segundo penodo de tiempo meta cumple con spl_tonal(k)>a3, determinar que la excepcion abrupta potencial de una senal de voz comprendida en la trama kesima es una interrupcion abrupta real de una senal de voz; o
    si una caractenstica de tono del segundo penodo de tiempo meta cumple con a4<spl_tonal(k)<a3 y spl_total(k)>=a5, determinar que la excepcion abrupta potencial de una senal de voz comprendida en la trama kesima es una interrupcion abrupta real de una senal de voz, en donde
    a3, a4, y a5 son un tercer umbral preestablecido, un cuarto umbral preestablecido, y un quinto umbral preestablecido, respectivamente.
    5
    10
    15
    20
    25
    30
    35
    40
    45
  11. 11. El metodo segun la reivindicacion 9, en donde determinar, mediante el analisis de una caractenstica de tono de al menos uno de los segundos penodos de tiempo que comprende al menos uno de los primeros penodos de tiempo meta, si la excepcion abrupta potencial de una senal de voz comprendida en el primer penodo de tiempo meta comprendido en el segundo penodo de tiempo meta es una excepcion abrupta real de una senal de voz comprende:
    determinar si uno de spl_total(k), spl_total(k-1), y spl_total(k+1) aumenta excesivamente rapido, y si uno de spl_total(k), spl_total(k-1), y spl_total(k+1) aumenta excesivamente rapido, y
    la caractenstica de tono del segundo penodo de tiempo cumple con:
    spl_tonal(k+1)>a7,
    spl_tonal (k)<a8,
    spl_tonal(k+1)-sp_no_tonal(k)>0, y sp/_no_tona/(k-i)<ag,
    determinar que la excepcion abrupta potencial de una senal de voz comprendida en la trama kesima es un comienzo abrupto real de una senal de voz; o
    determinar si uno de sp/_tota/(k), sp/_tota/(k-1), y sp/_tota/(k+1) aumenta excesivamente rapido, y si uno de sp/_tota/(k), sp/_tota/(k-1), y sp/_tota/(k+1) aumenta excesivamente rapido, y
    la caractenstica de tono del segundo penodo de tiempo cumple con:
    sp/_tona/(k+2)>aio,
    sp/_tona/(k+1)<aii,
    sp/_tona/(k+2)-sp_no_tona/(k+i)>0, y
    sp/_no_tona/(k)>ai2,
    determinar que la excepcion abrupta potencial de una senal de voz comprendida en la trama kesima es un comienzo abrupto real de una senal de voz, en donde
    a7 a ai2 son un septimo umbral preestablecido hasta un duodecimo umbral preestablecido; y
    la determinacion de si uno de sp/_tota/(k), sp/_tota/(k-i), y sp/_tota/(k+i) aumenta excesivamente rapido comprende:
    si la caractenstica de tono del segundo penodo de tiempo cumple con sp/_tota/(k)-sp/_tota/(k-i)>a6, y con que sp/_tota/(k-i) y sp/_tota/(k-2) aumentan ligeramente, determinar que sp/_tona/(k) aumenta excesivamente rapido, en donde k>2, y se preestablece que un nivel de presion sonora total de la trama 0 y un nivel de presion sonora total de la iera trama aumentan ligeramente; o
    si la caractenstica de tono del segundo penodo de tiempo cumple con sp/_tota/(k)-sp/_tota/(k-2)>a6, sp/_tota/(k)>sp/_tota/(k-i), sp/_tota/(k-i)-sp/_tota/(k-2), y con que sp/_tota/(k-i) y sp/_tota/(k-2) aumentan ligeramente, determinar que sp/_tona/(k) aumenta excesivamente rapido, en donde k>2, se preestablece que un nivel de presion sonora total de la trama 0 y un nivel de presion sonora total de la iera trama aumentan ligeramente, y a@ es un sexto umbral preestablecido; o
    si la caractenstica de tono del segundo penodo de tiempo no cumple ninguna de las dos condiciones que determinan que sp/_tona/ (k) aumenta ligeramente.
  12. 12. El metodo segun la reivindicacion 9, en donde determinar, mediante el analisis de una caractenstica de tono de al menos uno de los segundos penodos de tiempo que comprende al menos uno de los primeros penodos de tiempo meta, si la excepcion abrupta potencial de una senal de voz comprendida en el primer penodo de tiempo comprendido en el segundo penodo de tiempo meta es una excepcion abrupta real de una senal de voz comprende:
    determinar si uno de sp/_tota/(k), sp/_tota/(k-i), y sp/_tota/(k+i) disminuye excesivamente rapido, y si uno de sp/_tota/(k), sp/_tota/(k-i), y sp/_tota/(k+i) disminuye rapido, y
    la caractenstica de tono del segundo penodo de tiempo cumple con:
    sp/_tona/(k-i)>a7,
    sp/_tona/(k)<a8,
    5
    10
    15
    20
    25
    30
    35
    40
    45
    50
    spl_tonal(k-1)-sp_no_tonal(k)>0, y spl_no_tonal(k+1)<ag,
    determinar que la excepcion abrupta potencial de una senal de voz comprendida en la trama kesima es un final abrupto real de una senal de voz, en donde k>1; o
    determinar si uno de spl_total(k), spl_total(k-1), y spl_total(k+1) disminuye excesivamente rapido, y si uno de spl_total(k), spl_total(k-1), y spl_total(k+1) disminuye excesivamente rapido, y
    la caractenstica de tono del segundo penodo de tiempo cumple con:
    spl_tonal(k-2)>avg,
    sp/_tonal(k-1)<an,
    spl_total(k-1)-sp_no_tonal(k-2)>0, y
    sp/_no_tona/(k) < ai2,
    determinar que la excepcion abrupta potencial de una senal de voz comprendida en la trama kesima es un final abrupto real de una senal de voz, en donde k>2; y
    a7 a ai2 son un septimo umbral preestablecido hasta un duodecimo umbral preestablecido; y
    la determinacion de si uno de sp/_tota/(k), sp/_tota/(k-1), y sp/_tota/(k+1) disminuye excesivamente rapido comprende:
    si la caractenstica de tono del segundo penodo de tiempo cumple con sp/_tota/(k-1)-sp/_tota/(k)>a6, y con que sp/_tota/(k-1) y sp/_tota/(k-2) disminuyen ligeramente, determinar que sp/_tona/(k) disminuye excesivamente rapido, en donde k>2, y se preestablece que un nivel de presion sonora total de la trama 0 y un nivel de presion sonora total de la 1era trama disminuyen ligeramente; o
    si la caractenstica de tono del segundo penodo de tiempo cumple con sp/_tota/(k-2)-sp/_no_tota/(k)>a6, sp/_tota/(k-1)>sp/_tota/(k), sp/_tota/(k-2)-sp/_tota/(k-1), y con que sp/_tota/(k-1) y sp/_tota/(k-2) disminuyen ligeramente, determinar que sp/_tonal(k) disminuye excesivamente rapido, en donde k>2, y se preestablece que un nivel de presion sonora total de la trama 0 y un nivel de presion sonora total de la 1era trama disminuyen ligeramente; o
    si no se cumple ninguna de las dos condiciones anteriores que determinan que sp/_tota/(k) disminuye ligeramente, en donde
    a6 es un sexto umbral preestablecido.
  13. 13. Un metodo para detectar una senal de voz, que comprende:
    una primera unidad de deteccion, configurada para: realizar, en una unidad de longitud de trama de primer penodo de tiempo, un entramado de una muestra de voz continua para obtener multiples primeros penodos de tiempo, detectar energfa en cada uno de los primeros penodos de tiempo, y determinar un primer penodo de tiempo meta que comprende una excepcion abrupta potencial de una senal de voz mediante el analisis de una relacion entre la energfa de los multiples primeros penodos de tiempo, en donde la excepcion abrupta potencial de una senal de voz comprende una de las siguientes situaciones: interrupcion abrupta potencial, comienzo abrupto, y final abrupto de una senal de voz, y en donde una interrupcion abrupta corresponde a la ocurrencia de un par que comprende un final abrupto y un comienzo abrupto en la misma seccion de un segmento de la senal de voz;
    una unidad de entramado, configurada para realizar, en una unidad de longitud de trama de segundo penodo de tiempo, un entramado de la muestra de voz continua para obtener multiples segundos penodos de tiempo, en donde una longitud de trama de cada uno de los segundos penodos de tiempo es una integral multiple de la longitud de trama de primer penodo de tiempo, y un segundo penodo de tiempo que comprende el primer penodo de tiempo meta es un segundo penodo de tiempo meta; y
    una segunda unidad de deteccion, configurada para: procesar cada uno de los segundos penodos de tiempo para adquirir una caractenstica de tono, en donde la caractenstica de tono comprende realizar una transformada de Fourier rapida en cada uno de los segundos penodos de tiempo para adquirir un espectro de densidad de potencia, determinar un punto maximo local segun el espectro de densidad de potencia, y analizar un segmento de un intervalo de dominio de frecuencia centrado en el punto maximo local para determinar si existe un componente tonal en una banda de frecuencia en la que esta ubicado el punto maximo local, en donde la segunda unidad de deteccion esta ademas configurada para determinar, mediante el analisis de la caractenstica de tono adquirida de al menos uno de los segundos penodos de tiempo que comprenden al menos uno de los primeros penodos de tiempo meta, si la excepcion abrupta
    26
    5
    10
    15
    20
    25
    30
    35
    40
    45
    50
    55
    potencial de una senal de voz comprendida en el primer penodo de tiempo meta comprendido en el segundo penodo de tiempo meta es una excepcion abrupta real de una senal de voz.
  14. 14. El aparato segun la reivindicacion 13, en donde la primera unidad de deteccion comprende:
    un primer modulo de adquisicion, configurado para: realizar un entramado de la muestra de voz continua en una unidad de longitud de trama de primer penodo de tiempo, para dividir la muestra de voz continua en los multiples primeros penodos de tiempo segun un orden cronologico, y adquirir energfa tmma_ene^a_corta(i) de cada uno de los primeros penodos de tiempo, en donde la trama iesima es el iesim° primer penodo de tiempo en los multiples primeros penodos de tiempo e i es un numero natural; y
    un primer modulo de determinacion, configurado para: si la relacion entre la energfa de los primeros penodos de tiempo cumple con trama_energ^a_corta(/-1)-trama_energ^a_corta(i)>a2 y
    tmma_ene^a_corta(i)<ai, determinar que la trama iesima es un primer penodo de tiempo meta que comprende un final abrupto potencial de una senal de voz, donde ai y a2 son un primer umbral preestablecido y un segundo umbral preestablecido, respectivamente, e i>1.
  15. 15. El aparato segun la reivindicacion 13, en donde la primera unidad de deteccion comprende:
    un primer modulo de adquisicion, en donde el primer modulo de adquisicion esta configurado para: realizar un entramado de la muestra de voz continua en una unidad de longitud de trama de primer penodo de tiempo, para dividir la muestra de voz continua en los multiples primeros penodos de tiempo segun un orden cronologico, y adquirir energfa trama_ene^a_corta(i) de cada uno de los primeros penodos de tiempo, en donde la trama iesima es el iesimo primer penodo de tiempo en los multiples primeros penodos de tiempo, e i es un numero natural; y
    un primer modulo de determinacion, en donde el primer modulo de determinacion esta configurado para: si la relacion entre la energfa de los primeros penodos de tiempo cumple con trama_energ/a_corta(/-2)- trama_energ^a_corta(i)>a2 y trama_energ^a_corta(/)<a1, en donde a1 y a2 son un ^ primer umbral preestablecido y un segundo umbral preestablecido, respectivamente, y ni la trama (i-1)esima ni la trama (i- 2)esima es un primer penodo de tiempo meta que comprende un final abrupto potencial de una senal de voz, determinar que la trama iesima es el primer penodo de tiempo meta que incluye un final abrupto potencial de una senal de voz, en donde i>2 y la trama 0 y la 1era trama estan preestablecidas como primeros penodos de tiempo que no comprenden un final abrupto potencial de una senal de voz.
  16. 16. El aparato segun la reivindicacion 13, en donde la primera unidad de deteccion comprende:
    un primer modulo de adquisicion, en donde el primer modulo de adquisicion esta configurado para: realizar un entramado de la muestra de voz continua en una unidad de longitud de trama de primer penodo de tiempo, para dividir la muestra de voz continua en los multiples primeros penodos de tiempo segun un orden cronologico, y adquirir energfa trama_enewa_corta(/) de cada uno de los primeros penodos de tiempo, en donde la trama iesima es el iesimo primer penodo de tiempo en los multiples primeros penodos de tiempo, e i es un numero natural; y
    un primer modulo de determinacion, en donde el primer modulo de determinacion esta configurado para: si la relacion entre la energfa de los primeros penodos de tiempo cumple con trama_energ^a_corta(/-3)- trama_energ^a_corta(/)>a2) y (trama_energ^a_corta(/)<a1, en donde a1 y a2 son un primer umbral preestablecido y un segundo umbral preestablecido, respectivamente, y ninguna de las tramas comprendidas entre la trama (i-1)esima y la trama (i-3)esima es un primer penodo de tiempo meta que comprende un final abrupto potencial, determinar que la trama iesima es el primer penodo de tiempo meta que comprende un final abrupto potencial de una senal de voz, en donde i>3 y la trama 0, la 1era trama y la 2da trama estan preestablecidas como primeros penodos de tiempo que no comprenden un final abrupto potencial de una senal de voz.
  17. 17. El aparato segun la reivindicacion 13, en donde la primera unidad de deteccion comprende:
    un primer modulo de adquisicion, en donde el primer modulo de adquisicion esta configurado para: realizar un entramado de la muestra de voz continua en una unidad de longitud de trama de primer penodo de tiempo, para dividir la muestra de voz continua en los multiples primeros penodos de tiempo segun un orden cronologico, y adquirir energfa trama_enewa_corta(/) de cada uno de los primeros penodos de tiempo, en donde la trama iesima es el iesimo primer penodo de tiempo en los multiples primeros penodos de tiempo, e i es un numero natural; y
    un primer modulo de determinacion, configurado para: si la relacion entre la energfa de los primeros penodos de tiempo cumple con trama_energfa_corta(/)-trama_energ/a_corta(/-1)>a2 y
    trama_energ^a_corta(/-1)<a1, determinar que la trama iesima es un primer penodo de tiempo meta que comprende un comienzo abrupto potencial de una senal de voz, en donde a1 y a2 son un primer umbral preestablecido y un segundo umbral preestablecido, respectivamente, e i>1.
  18. 18. El aparato segun la reivindicacion 13, en donde la primera unidad de deteccion comprende:
    27
    5
    10
    15
    20
    25
    30
    35
    40
    45
    50
    55
    un primer modulo de adquisicion, en donde el primer modulo de adquisicion esta configurado para: realizar un entramado de la muestra de voz continua en una unidad de longitud de trama de primer penodo de tiempo, para dividir la muestra de voz continua en los multiples primeros penodos de tiempo segun un orden cronologico, y adquirir ene^a tmma_ene^a_corta(i) de cada uno de los primeros penodos de tiempo, en donde la trama iesima es el iesim° primer penodo de tiempo en los multiples primeros penodos de tiempo, e i es un numero natural; y
    un primer modulo de determinacion, configurado para: si la relacion entre la energfa de los primeros penodos de tiempo cumple con trama_energ^a_corta(i)-trama_energ^a_corta(/-2)>a2) y trama_energ/a_corta(/-2)<ai), en donde ai y a2 son un primer umbral preestablecido y un segundo umbral preestablecido, respectivamente, y ni la trama (i-1)esima ni la trama (i-2)esima es un primer penodo de tiempo meta que comprende un comienzo abrupto potencial de una senal de voz, determinar que la trama iesima es el primer penodo de tiempo meta que comprende un comienzo abrupto potencial de una senal de voz, en donde i>2 y la trama 0 y la 1era trama estan preestablecidas como primeros penodos de tiempo que no comprenden un comienzo abrupto potencial de una senal de voz.
  19. 19. El aparato segun la reivindicacion 13, en donde la primera unidad de deteccion comprende:
    un primer modulo de adquisicion, en donde el primer modulo de adquisicion esta configurado para: realizar un entramado de la muestra de voz continua en una unidad de longitud de trama de primer penodo de tiempo, para dividir la muestra de voz continua en los multiples primeros penodos de tiempo segun un orden cronologico, y adquirir energfa tmma_ene^a_corta(/) de cada uno de los primeros penodos de tiempo, en donde la trama iesima es el iesimo primer penodo de tiempo en los multiples primeros penodos de tiempo, e i es un numero natural; y
    un primer modulo de determinacion, configurado para: si la relacion entre la energfa de los primeros penodos de tiempo cumple con trama_energ/a_corta(/)-trama_energ/a_corta(/-3)>a2 y
    trama_energ^a_corta(/)<a1), en donde ai y a2 son un primer umbral preestablecido y un segundo umbral preestablecido, respectivamente, y ninguna de las tramas comprendidas entre la trama (i-1)esima y la trama (i-3)esima es un primer penodo de tiempo meta que comprende un comienzo abrupto potencial de una senal de voz, determinar que la trama iesima es el primer penodo de tiempo meta que comprende un comienzo abrupto potencial de una senal de voz, en donde i>3 y la trama 0 , la 1era trama y la 2da trama estan preestablecidas como primeros penodos de tiempo que no incluyen un comienzo abrupto potencial de una senal de voz.
  20. 20. El aparato segun cualquiera de las reivindicaciones 13 a 19, en donde la segunda unidad de deteccion comprende:
    un segundo modulo de adquisicion, configurado para: realizar un procesamiento de deteccion de tono en los multiples segundos penodos de tiempo segun un orden cronologico, y adquirir un nivel de presion sonora total spl_total(k), un nivel de presion sonora de componente tonal spl_tonal(k), y un nivel de presion sonora de componente no tonal spl_no_tonal(k) de la trama kesima, donde la trama kesima es el segundo penodo de tiempo kesimo en los multiples segundos penodos de tiempo, y k es un numero natural; y
    un segundo modulo de determinacion, configurado para: si una caractenstica de tono del segundo penodo de tiempo meta cumple con spl_tonal(k)>a3, determinar que la excepcion abrupta potencial de una senal de voz comprendida en la trama kesima es una interrupcion abrupta real de una senal de voz; o
    si una caractenstica de tono del segundo penodo de tiempo cumple con a4<spl_tonal(k)<a3 y spl_total(k)>=a5, determinar que la excepcion abrupta potencial de una senal de voz comprendida en la trama kesima es una interrupcion abrupta real de una senal de voz, en donde
    a3, a4, y a5 son un tercer umbral preestablecido, un cuarto umbral preestablecido, y un quinto umbral preestablecido, respectivamente.
  21. 21. El aparato segun cualquiera de las reivindicaciones 13 a 19, en donde la segunda unidad de deteccion comprende:
    un segundo modulo de adquisicion, configurado para: realizar un procesamiento de deteccion de tono en los multiples segundos penodos de tiempo segun un orden cronologico; y adquirir un nivel de presion sonora total spl_total(k), un nivel de presion sonora de componente tonal spl_tonal(k), y un nivel de presion sonora de componente no tonal spl_no_tonal(k) de la trama kesima, en donde la trama kesima es el segundo penodo de tiempo kesimo en los multiples segundos penodos de tiempo y k es un numero natural; y
    un segundo modulo de determinacion, configurado para: determinar si uno de spl_total(k), spl_total(k-1), y spl_total(k+1) aumenta excesivamente rapido, y si uno de spl_total(k), spl_total(k-1), y spl_total(k+1) aumenta excesivamente rapido, y
    la caractenstica de tono del segundo penodo de tiempo cumple con:
    5
    10
    15
    20
    25
    30
    35
    40
    45
    spl_tonal(k+1)>ai, spl_tonal(k)< as,
    spl_tonal(k+1)-sp_no_tonal(k)>0, y spl_no_tonal(k-1)<ag,
    determinar que la excepcion abrupta potencial de una senal de voz comprendida en la trama kesima es un comienzo abrupto real de una senal de voz; o
    determinar si uno de spl_total(k), spl_total(k-1), y spl_total(k+1) aumenta excesivamente rapido, y si uno de spl_total(k), spl_total(k-1), y spl_total(k+1) aumenta excesivamente rapido, y
    la caractenstica de tono del segundo penodo de tiempo cumple con:
    spl_tonal(k+2)>aio,
    sp_tonal(k+1)<aii,
    spl_tonal(k+2)-sp_no_tonal(k+1)>0, y
    spl_no_tonal(k)<ai2,
    determinar que la excepcion abrupta potencial de una senal de voz comprendida en la trama kesima es un comienzo abrupto real de una senal de voz, en donde
    a7 a ai2 son un septimo umbral preestablecido hasta un duodecimo umbral preestablecido; y
    el segundo modulo de determinacion esta ademas configurado para determinar si uno de spl_total(k), spl_total(k-1), y spl_total(k+1) aumenta excesivamente rapido comprende:
    si la caractenstica de tono del segundo penodo de tiempo cumple con spl_total(k)-spl_total(k-1)>a@ y con que spl_total(k-1) y spl_total(k-2) aumentan ligeramente, determinar que el spl_tonal(k) aumenta excesivamente rapido, en donde k>2, y se preestablece que un nivel de presion sonora total de la trama 0 y un nivel de presion sonora total de la 1era trama aumentan ligeramente; o
    si la caractenstica de tono del segundo penodo de tiempo cumple con spl_total(k)-spl_total(k-2)>a@, spl_total(k)>spl_total(k-1), spl_total(k-1)>spl_total(k-2), y con que spl_total(k-1) y spl_total(k-2) aumentan ligeramente, determinar que spl_tonal(k) aumenta excesivamente rapido, en donde k>2, y se preestablece que un nivel de presion sonora total de la trama 0 y un nivel de presion sonora total de la 1era trama aumentan ligeramente, y a6 es un sexto umbral preestablecido; o
    si la caractenstica de tono del segundo penodo de tiempo no cumple ninguna de las dos condiciones determinar que spl_tonal(k) aumenta ligeramente.
  22. 22. El aparato segun cualquiera de las reivindicaciones 13 a 19, en donde la segunda unidad de deteccion comprende: un segundo modulo de adquisicion, configurado para: realizar un procesamiento de deteccion de tono en los multiples segundos penodos de tiempo segun un orden cronologico; y adquirir un nivel de presion sonora total spl_total(k), un nivel de presion sonora de componente tonal spl_tonal(k), y un nivel de presion sonora de componente no tonal spl_no_tonal(k) de la trama kesima, en donde la trama kesima es el segundo penodo de tiempo kesimo en los multiples segundos penodos de tiempo y k un numero natural; y
    un segundo modulo de determinacion, configurado para: determinar si uno de spl_total(k), spl_total(k-1), y spl_total(k+1) disminuye excesivamente rapido, y si uno de spl_total(k), spl_total(k-1), y spl_total(k+1) disminuye excesivamente rapido, y
    la caractenstica de tono del segundo penodo de tiempo cumple con:
    spl_tonal(k-1)>a7,
    spl_tonal(k)< as,
    spl_tonal(k-1)-sp_no_tonal(k)>0, y spl_no_tonal(k+1)<a9,
    determinar que la excepcion abrupta potencial de una senal de voz comprendida en la trama kesima es un final abrupto real de una senal de voz, donde k>1; o
    5
    10
    15
    20
    25
    determinar si uno de spl_total(k), spl_total(k-1), y spl_total(k+1) disminuye excesivamente rapido, y si uno de sp/_tota/(k), sp/_tota/(k-1), y spl_total(k+1) disminuye excesivamente rapido, y
    la caractenstica de tono del segundo penodo de tiempo cumple con:
    sp/_tonal(k-2)>a-io,
    sp/_tonal(k-1)<an,
    sp/_tona/(k-1)-sp_no_tona/(k-2)>0, y
    sp/_no_tona/(k)<ai2,
    determinar que la excepcion abrupta potencial de una senal de voz comprendida en la trama kesima es un final abrupto real de una senal de voz, en donde k>2, y
    a7 a ai2 son un septimo umbral preestablecido a un duodecimo umbral preestablecido; y
    la determinacion de si uno de sp/_tota/(k), sp/_tota/(k-1), y el sp/_tota/(k+1) aumenta excesivamente rapido comprende:
    si la caractenstica de tono del segundo penodo de tiempo cumple con sp/_tota/(k-1)-sp/_tota/(k)>a6 y con que sp/_tota/(k-1) y sp/_tota/(k-2) disminuyen ligeramente, determinar que sp/_tona/(k) disminuye excesivamente rapido, en donde k>2, y se preestablece que un nivel de presion sonora total de la trama 0 y un nivel de presion sonora total de la 1era trama disminuyen ligeramente; o
    si la caractenstica de tono del segundo penodo de tiempo cumple con sp/_tota/(k-2)-sp/_tota/(k)>a6, sp/_tota/(k-1)-sp/_tota/(k), sp/_tota/(k-1)-sp/_tota/(k), y con que sp/_tota/(k-1) y sp/_tota/(k-2) disminuyen ligeramente, determinar que sp/_tona/(k) disminuye excesivamente rapido, en donde k>2, y se preestablece que un nivel de presion sonora total de la trama 0 y un nivel de presion sonora total de la 1era trama disminuyen ligeramente; o
    si no se cumple ninguna de las dos condiciones anteriores que determinan que sp/_tota/(k) disminuye ligeramente, en donde
    a6 es un sexto umbral preestablecido.
ES13867161.5T 2012-12-27 2013-12-19 Método y aparato para detectar una señal de voz Active ES2610102T3 (es)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201210580541.7A CN103903633B (zh) 2012-12-27 2012-12-27 检测语音信号的方法和装置
CN201210580541 2012-12-27
PCT/CN2013/089983 WO2014101713A1 (zh) 2012-12-27 2013-12-19 检测语音信号的方法和装置

Publications (1)

Publication Number Publication Date
ES2610102T3 true ES2610102T3 (es) 2017-04-25

Family

ID=50994912

Family Applications (1)

Application Number Title Priority Date Filing Date
ES13867161.5T Active ES2610102T3 (es) 2012-12-27 2013-12-19 Método y aparato para detectar una señal de voz

Country Status (6)

Country Link
US (1) US9396739B2 (es)
EP (1) EP2927906B1 (es)
CN (1) CN103903633B (es)
DK (1) DK2927906T3 (es)
ES (1) ES2610102T3 (es)
WO (1) WO2014101713A1 (es)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104217715B (zh) * 2013-08-12 2017-06-16 北京诺亚星云科技有限责任公司 一种实时语音样本检测方法及系统
CN105336344B (zh) 2014-07-10 2019-08-20 华为技术有限公司 杂音检测方法和装置
CN105374367B (zh) 2014-07-29 2019-04-05 华为技术有限公司 异常帧检测方法和装置
CN106847306B (zh) * 2016-12-26 2020-01-17 华为技术有限公司 一种异常声音信号的检测方法及装置
CN109754817B (zh) * 2017-11-02 2025-02-18 北京三星通信技术研究有限公司 信号处理方法及终端设备
CN111343344B (zh) * 2020-03-13 2022-05-31 Oppo(重庆)智能科技有限公司 语音异常检测方法、装置、存储介质及电子设备
CN111696580B (zh) * 2020-04-22 2023-06-16 广州多益网络股份有限公司 一种语音检测方法、装置、电子设备及存储介质
CN111627453B (zh) * 2020-05-13 2024-02-09 广州国音智能科技有限公司 公安语音信息管理方法、装置、设备及计算机存储介质
CN113392234A (zh) * 2021-02-01 2021-09-14 腾讯科技(北京)有限公司 多媒体文件处理方法、装置、设备及介质
CN113345473B (zh) * 2021-06-24 2024-02-13 中国科学技术大学 语音端点检测方法、装置、电子设备和存储介质
CN115376546A (zh) * 2022-07-25 2022-11-22 惠州市森叶五金电子有限公司 受话器异音识别方法、装置、计算机设备和存储介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1991005333A1 (en) * 1989-10-06 1991-04-18 Motorola, Inc. Error detection/correction scheme for vocoders
GB2317084B (en) * 1995-04-28 2000-01-19 Northern Telecom Ltd Methods and apparatus for distinguishing speech intervals from noise intervals in audio signals
JPH10327089A (ja) 1997-05-23 1998-12-08 Matsushita Electric Ind Co Ltd 携帯電話装置
KR20010080476A (ko) 1999-09-20 2001-08-22 요트.게.아. 롤페즈 오디오 신호를 정정하기 위한 처리 회로, 수신기, 통신시스템, 이동 장치 및 이에 관련된 방법
KR100367700B1 (ko) * 2000-11-22 2003-01-10 엘지전자 주식회사 음성부호화기의 유/무성음정보 추정방법
US7472059B2 (en) * 2000-12-08 2008-12-30 Qualcomm Incorporated Method and apparatus for robust speech classification
US7280967B2 (en) * 2003-07-30 2007-10-09 International Business Machines Corporation Method for detecting misaligned phonetic units for a concatenative text-to-speech voice
US7626110B2 (en) * 2004-06-02 2009-12-01 Stmicroelectronics Asia Pacific Pte. Ltd. Energy-based audio pattern recognition

Also Published As

Publication number Publication date
EP2927906A4 (en) 2015-10-07
EP2927906A1 (en) 2015-10-07
WO2014101713A1 (zh) 2014-07-03
CN103903633B (zh) 2017-04-12
DK2927906T3 (da) 2017-01-16
EP2927906B1 (en) 2016-10-05
US20150325256A1 (en) 2015-11-12
CN103903633A (zh) 2014-07-02
US9396739B2 (en) 2016-07-19

Similar Documents

Publication Publication Date Title
ES2610102T3 (es) Método y aparato para detectar una señal de voz
ES2733099T3 (es) Sistemas, procedimientos y aparatos para la detección de cambio de señal
ES2684297T3 (es) Método y discriminador para clasificar diferentes segmentos de una señal de audio que comprende segmentos de voz y música
US10074384B2 (en) State estimating apparatus, state estimating method, and state estimating computer program
ES2276845T3 (es) Metodos y aparatos para la clasificacion de voz robusta.
ES2349554T3 (es) Codificación de señales.
US8063809B2 (en) Transient signal encoding method and device, decoding method and device, and processing system
ES2984875T3 (es) Procedimiento y aparato para determinar un modo de codificación, procedimiento y aparato para codificar señales de audio, y procedimiento y aparato para decodificar señales de audio
ES2908183T3 (es) Decisión no sonora para el procesamiento de la voz
US20120303369A1 (en) Energy-Efficient Unobtrusive Identification of a Speaker
DK2954524T3 (en) STRENGTH CONTROL SYSTEMS AND METHODS
US9524720B2 (en) Systems and methods of blind bandwidth extension
TR201910989T4 (tr) Bir zaman-bölgesi kod çözücüsünde nicemleme gürültüsünün azaltılmasına yönelik cihaz ve yöntem.
ES2812553T3 (es) Método, dispositivo y sistema de transmisión de datos multimedia
ES2787894T9 (es) Método y dispositivo para detectar la señal de audio
ES2989845T3 (es) Dispositivo y procedimiento de determinación de función de ponderación para cuantificar el coeficiente de codificación de predicción lineal
JP5282523B2 (ja) 基本周波数抽出方法、基本周波数抽出装置、およびプログラム
CN105590629B (zh) 一种语音处理的方法及装置
US9263061B2 (en) Detection of chopped speech
JP4601970B2 (ja) 有音無音判定装置および有音無音判定方法
Luengo et al. Modified LTSE-VAD Algorithm for Applications Requiring Reduced Silence Frame Misclassification.
ES2254155T3 (es) Procedimiento y aparato para realizar el seguimiento de la fase de una señal casi periodica.