ES2338418T3 - Procedimiento adaptativo al usuario para la modelizacion de ruidos. - Google Patents

Procedimiento adaptativo al usuario para la modelizacion de ruidos. Download PDF

Info

Publication number
ES2338418T3
ES2338418T3 ES04100134T ES04100134T ES2338418T3 ES 2338418 T3 ES2338418 T3 ES 2338418T3 ES 04100134 T ES04100134 T ES 04100134T ES 04100134 T ES04100134 T ES 04100134T ES 2338418 T3 ES2338418 T3 ES 2338418T3
Authority
ES
Spain
Prior art keywords
noise
background
profile
voice
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
ES04100134T
Other languages
English (en)
Inventor
Andreas Ralph Major
Andreas Schroer
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Siemens Corp
Original Assignee
Siemens AG
Siemens Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG, Siemens Corp filed Critical Siemens AG
Application granted granted Critical
Publication of ES2338418T3 publication Critical patent/ES2338418T3/es
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephone Function (AREA)
  • Telephonic Communication Services (AREA)
  • Machine Translation (AREA)

Abstract

Procedimiento para el reconocimiento de voz con un banco de datos con varios perfiles de ruido de fondo, que representan distintos fondos de ruido, - en el que cuando en el banco de datos se encuentra un perfil de ruido de fondo adecuado como modelo de ruido para el fondo de ruido actual, se elige este perfil de ruido de fondo y se realiza el reconocimiento de voz teniendo en cuenta el perfil de ruido de fondo, - en el que cuando en el banco de datos no se encuentra ningún perfil de ruido de fondo adecuado como modelo de ruido para el actual fondo de ruido, se confecciona un perfil de ruido de fondo para este fondo de ruido y el reconocimiento de voz se realiza considerando el perfil de ruido de fondo confeccionado.

Description

Procedimiento adaptivo al usuario para la modelización de ruidos.
Los procedimientos técnicos para reconocer la voz humana se utilizan hoy día en múltiples aparatos móviles como por ejemplo teléfonos móviles, asistentes personales digitales (Personal Digital Assistants, PDAs) y wearables o portables (reproductor MP3, terminales móviles-relojes, etc.). Al respecto se utiliza entre otros un reconocimiento de voz independiente del orador basado en la modelización Hidden-Markov (HMM) de los fonemas (o de otras unidades de sonido) de una voz y del fondo de ruido o del silencio.
Entonces dan lugar los dos puntos que siguen a que la calidad del reconocimiento se vea fuertemente perjudicada: En primer lugar, poseen los canales de audio (micrófono y convertidor analógico/digital) de los aparatos antes citados típicamente una curva característica muy diferente, por ejemplo con respecto a la resolución y precisión de la conversión A/D y al ruido que resulta en una toma de audio. En segundo lugar, se utilizan todos los aparatos citados en entornos acústicamente muy diferentes, es decir, por ejemplo en el automóvil, en la oficina, en la calle, etcétera. Por ello es muy difícil modelizar el fondo de ruido en el reconocimiento de voz.
Un procedimiento estándar para la modelización del fondo de ruido consiste en que en la generación de los datos del modelo se tengan en cuenta muchas expresiones con distinto fondo de ruido. Este llamado proceso de entrenamiento se realiza entonces sobre un banco de datos que contiene tomas procedentes de diversos entornos acústicos, como por ejemplo automóvil, oficina, etcétera. El inconveniente entonces es que las distintas curvas características de los canales de audio no pueden ser captadas por los aparatos móviles y que es imposible representar de manera adecuada todos los entornos acústicos.
Otra posibilidad adicional consiste en captar modelizaciones para ruidos especiales en el vocabulario activo del reconocedor (modelización Garbage o de desecho). No obstante, este tipo de modelización tiene el inconveniente de que sólo antes y después de la palabra a reconocer pueden reproducirse ruidos secundarios sobre estas palabras Garbage
o de desecho. El reconocimiento de la palabra pronunciada se realiza a continuación dificultado por ruidos de fondo.
Otra posibilidad utilizada en muchos casos para asegurar una buena modelización del ruido de fondo son procedimientos para reducir el ruido que intentan suprimir ruidos de fondo en los datos de audio. No obstante, la reducción de los ruidos no está en competencia con los demás procedimientos aquí descritos, ya que los mismos no se excluyen mutuamente y la reducción de ruidos se basa en otra forma de proceder totalmente distinta: La misma modifica los datos de audio y no formula ninguna hipótesis sobre la modelización del ruido de fondo.
Además es posible captar la acústica de una sala y con ello adaptar el canal de audio un poco a una sala muy determinada.
Por el documento de patente US, 5,970,446 se conoce la consideración en el reconocimiento de voz de un perfil de ruido de fondo adecuado al actual fondo de ruido.
Partiendo de ello, la invención tiene como tarea básica incrementar la calidad del reconocimiento de voz y garantizar un reconocimiento de voz seguro, en particular también con diferentes fondos de ruido.
Esta tarea se resuelve mediante las invenciones indicadas en las reivindicaciones independientes. Ventajosas configuraciones mejoradas resultan de las reivindicaciones subordinadas.
Correspondientemente, se utilizan en un procedimiento para el reconocimiento de voz automático, apoyado por ordenador, varios perfiles de fondos de ruido, que representan respectivos fondos de ruido diferentes. Cuando se encuentra en el banco de datos con perfiles de ruido de fondo un perfil de ruido de fondo adecuado como modelo de ruido para el fondo de ruido actual, se elige este perfil de ruido de fondo y se realiza el reconocimiento de voz teniendo en cuenta el perfil de ruido de fondo. Cuando en el banco de datos no se encuentra ningún perfil de ruido de fondo adecuado como modelo de ruido para el actual fondo de ruido, se confecciona un perfil de ruido de fondo para este fondo de ruido y el reconocimiento de voz se realiza considerando el perfil de ruido de fondo confeccionado. La elección de los perfiles de ruido de fondo a partir del banco de datos se realiza preferiblemente de forma automática en base a determinadas prescripciones, pero también puede realizarse manualmente por parte de un usuario. Estas prescripciones pueden contener y/o tener en cuenta por ejemplo los ruidos de fondo medidos en ese momento, pero también alternativa o adicionalmente otros parámetros, como por ejemplo la hora del día o un determinado entorno en el que se encuentra en ese momento el dispositivo que realiza reconocimiento de voz.
El reconocimiento de voz se realiza entonces considerando el perfil de ruido de fondo elegido.
Preferiblemente se analiza para seleccionar el perfil de ruido de fondo el fondo de ruido actual y se elige el perfil de ruido de fondo considerando este análisis. Preferiblemente se elige entonces naturalmente el perfil de ruido de fondo que representa mejor el fondo de ruido actual.
Alternativa o adicionalmente puede no obstante también realizar el usuario la elección del perfil de ruido de fondo o influir sobre la misma.
Otra posibilidad alternativa o adicional consiste en la consideración de otros parámetros. Así puede por ejemplo estar insertado el dispositivo con el que se realiza el reconocimiento de voz en un soporte de fijación de un vehículo. En el procedimiento se detecta entonces que el dispositivo está colocado en el soporte de fijación de un vehículo, para lo cual el dispositivo dispone de los correspondientes medios. A continuación se elige un perfil de ruido de fondo que en particular esté adaptado para un reconocimiento de voz en un automóvil.
Preferiblemente pueden confeccionarse los perfiles de ruido de fondo mediante el dispositivo utilizado para el procedimiento. Para ello se capta un fondo de ruido y el dispositivo confecciona un perfil de ruido de fondo para este fondo de ruido. De esta manera puede adaptarse el procedimiento a los más diversos fondos de ruido y con ello adaptarse a las necesidades del usuario.
Además es ventajoso que se detecte con ayuda de un Voice Activity Detector (VAD, detector de actividad de voz) si existe un fondo con ruido o si existe voz. Esta detección puede realizarse tanto al elegir un perfil de ruido de fondo como también al confeccionar un nuevo perfil de ruido de fondo.
Un dispositivo que está preparado para realizar el procedimiento antes descrito presenta en particular respectivos medios que están equipados para realizar las distintas etapas del procedimiento. Configuraciones mejoradas preferentes del dispositivo resultan análogamente a las configuraciones mejoradas preferentes del procedimiento. El dispositivo es preferiblemente un aparato terminal móvil en forma de un teléfono móvil, PDA o wearable (portable).
Un producto de programa para una instalación de tratamiento de datos que contiene secciones de códigos, con las que puede ejecutarse uno de los procedimientos descritos sobre la instalación de tratamiento de datos, puede ejecutarse mediante implementación adecuada del procedimiento en un lenguaje de programación y conversión a un código que pueda ejecutar la instalación de tratamiento de datos. Las secciones de códigos se memorizan para ello. Al respecto se entiende bajo un producto de programa el programa como producto comercializable. El mismo puede existir en cualquier forma, como por ejemplo en papel, en un soporte de datos legible por ordenador o distribuido a través de una red.
Otras ventajas y características esenciales de la invención resultan de la descripción de un ejemplo de ejecución en base al dibujo. Al respecto muestra
figura 1 la señal de audio de las palabras "encuentro en la estación";
figura 2 un diagrama secuencial para la confección de un perfil de ruido de fondo para un fondo de ruido;
figura 3 un diagrama secuencial para un procedimiento para el reconocimiento de voz.
En el procedimiento para el reconocimiento de voz se entrenan con la mayor precisión posible en relación con el canal de audio y el perfil de usuario perfiles de ruido de fondo adecuados (modelos de silencio) en un aparato terminal. Estos perfiles de ruido de fondo se utilizan entonces en el reconocimiento. Se procede en dos etapas, que a continuación se describirán con exactitud.
Primeramente inicia el usuario del aparato terminal un entrenamiento de ruido, con lo que se capta el fondo de ruido actual. En una realización de este entrenamiento en una sala silenciosa, corresponde la captación al ruido del canal de audio. Si adicionalmente se inicia una captación durante por ejemplo una visita a una feria, refleja la captación el ruido de la feria inclusive el ruido del canal de audio. Pueden confeccionarse adicionalmente otras cualesquiera captaciones, por ejemplo en el automóvil, en el tren, en una calle transitada, etcétera. Las captaciones de ruido de fondo pueden realizarlas el usuario en cualquier momento y en cualquier lugar.
La figura 1 muestra el proceso de la adaptación del ruido, que se inicia explícitamente por parte del usuario. Una vez que el usuario ha iniciado el entrenamiento, puede el mismo detener de nuevo la captación de ruido tras un cierto espacio de tiempo. Al respecto puede tratarse de varios segundos hasta varios minutos. Una vez que el usuario ha detenido de nuevo la captación, se modeliza el ruido y se memoriza el perfil de ruido de fondo así obtenido en un banco de datos.
En cada proceso de reconocimiento del reconocedor de voz del aparato terminal se consideran y comparan todas las captaciones de entorno existentes o bien los perfiles de ruido de fondo que representan a las mismas para el fondo de ruido actual en cada caso (modelización del silencio). Esto se realiza de la siguiente manera: cuando inicia el usuario el reconocimiento de voz, se analiza primeramente el fondo de ruido. Para ello puede aprovecharse que por lo general dura de uno a dos segundos hasta que el usuario comienza a hablar.
Un ejemplo de ello se indica en la figura 1. Aquí puede reconocerse la señal de las palabras "encuentro en la estación". La misma contiene pausas claras al comienzo y al final de toda la captación, así como pausas más cortas entre las distintas palabras. Al comienzo de la forma de onda, está marcada la zona más segura A para el reconocimiento del fondo de ruido. Esta zona contiene el ruido del canal de audio, así como el actual fondo de ruido. La zona se analiza para el reconocimiento de ruido. La diferencia entre sí una forma de onda es ruido o voz puede detectarse por ejemplo mediante la energía de la posición en la captación.
El comienzo de la voz en la expresión puede encontrarse con un procedimiento para la detección de voz en forma de un Voice Activity Detector (detector de actividad de voz), por ejemplo mediante umbrales de energía. En base a la captación así obtenida del actual fondo de ruido al comienzo del proceso actual de reconocimiento, se elige el perfil de ruido de fondo que mejor encaja de entre los perfiles existentes. Con el perfil de ruido de fondo ahora elegido se realiza el reconocimiento. Esto da lugar a que en fondos de ruido típicos para el usuario no se presenten ninguno o pocos reconocimientos incorrectos.
Si el fondo de ruido actual no es similar a ninguno de los ruidos ya captados, puede recomendársele al usuario entrenar con este fondo de ruido. No obstante, esto puede realizarse a elección automáticamente, es decir sin consultar. La recomendación para el usuario puede realizarse visualmente y/o mediante señal de audio.
La secuencia esquemática del reconocimiento de ruido se representa de nuevo en base a la figura 3. Aquí arranca el usuario el reconocedor de voz. La captación se realiza como fondo de ruido hasta que se detecta que a partir del tramo actual de la captación, se trata de voz. Para ello se utiliza un Voice Activity Detector (detector de actividad de voz). Entonces se decide si en el banco de datos se encuentra ya un perfil de ruido de fondo adecuado como modelo de ruido o no. Si existe el perfil de ruido de fondo, se elige éste para el reconocimiento y comienza el reconocimiento propiamente dicho de las palabras expresadas por el usuario. Si por el contrario no existe ningún perfil de ruido de fondo adecuado, se recomienda al usuario modelizar el ruido y registrarlo en la base de datos. Alternativamente puede realizarse la modelización del fondo de ruido desconocido automáticamente. Si el usuario elige el entrenamiento, se modeliza el fondo de ruido y a continuación se realiza inmediatamente el reconocimiento de la expresión con el nuevo modelo. Si el usuario rechaza la modelización, se realiza el proceso de reconocimiento en base a un modelo por defecto.
La invención posee las ventajas de que un sistema de reconocimiento de voz alcanza mejores resultados, ya que
-
la calidad de un canal de audio malo de un aparato tiene un papel secundario en el proceso de reconocimiento. Esto es debido a que el canal de audio, inclusive el entorno de ruido, se modelizan;
-
los entornos de ruido se tienen en cuenta a la vez en el proceso de reconocimiento, lo cual reduce el empeoramiento del resultado del reconocimiento causado por los mismos. El reconocimiento de voz funciona óptimamente en los entornos de ruido dinámicos definidos por el usuario, ya que los mismos se modelizan a la vez,
-
los perfiles de ruido de fondo, una vez se han registrado y entrenado, los elige automáticamente el programa de reconocimiento de voz para el fondo de ruido existente en ese momento. Esto está en contraposición con el comportamiento de los reconocedores utilizados hasta ahora, que en todo caso posibilitan la elección explícita, cualitativa de un entorno de ruido no específico del usuario y del canal de audio.
\vskip1.000000\baselineskip
Es característica la posibilidad de definición individual de fondos de ruido por parte del usuario, lo que posibilita una calidad de reconocimiento óptima, en el entorno de utilización típico para él mismo de un aparato móvil.

Claims (5)

1. Procedimiento para el reconocimiento de voz con un banco de datos con varios perfiles de ruido de fondo, que representan distintos fondos de ruido,
-
en el que cuando en el banco de datos se encuentra un perfil de ruido de fondo adecuado como modelo de ruido para el fondo de ruido actual, se elige este perfil de ruido de fondo y se realiza el reconocimiento de voz teniendo en cuenta el perfil de ruido de fondo,
-
en el que cuando en el banco de datos no se encuentra ningún perfil de ruido de fondo adecuado como modelo de ruido para el actual fondo de ruido, se confecciona un perfil de ruido de fondo para este fondo de ruido y el reconocimiento de voz se realiza considerando el perfil de ruido de fondo confeccionado.
\vskip1.000000\baselineskip
2. Procedimiento según la reivindicación 1,
-
en el que se analiza el fondo de ruido actual,
-
en el que el perfil de ruido de fondo se elige teniendo en cuenta este análisis.
\vskip1.000000\baselineskip
3. Procedimiento según una de las reivindicaciones precedentes,
en el que con ayuda de un Voice-Activity-Detector (detector de actividad de voz) se detecta si existe un fondo de ruido.
4. Dispositivo, en particular aparato terminal móvil, equipado para realizar un procedimiento según una de las reivindicaciones precedentes, para lo que el mismo presenta en cada caso medios para realizar las distintas etapas de procedimiento.
5. Producto de programa para una instalación de tratamiento de datos que contiene secciones de códigos con las que puede realizarse un procedimiento según una de las reivindicaciones 1 a 3 sobre la instalación de tratamiento de datos.
ES04100134T 2003-02-10 2004-01-16 Procedimiento adaptativo al usuario para la modelizacion de ruidos. Expired - Lifetime ES2338418T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE2003105369 DE10305369B4 (de) 2003-02-10 2003-02-10 Benutzeradaptives Verfahren zur Geräuschmodellierung
DE10305369 2003-02-10

Publications (1)

Publication Number Publication Date
ES2338418T3 true ES2338418T3 (es) 2010-05-07

Family

ID=32603224

Family Applications (1)

Application Number Title Priority Date Filing Date
ES04100134T Expired - Lifetime ES2338418T3 (es) 2003-02-10 2004-01-16 Procedimiento adaptativo al usuario para la modelizacion de ruidos.

Country Status (3)

Country Link
EP (1) EP1445759B1 (es)
DE (2) DE10305369B4 (es)
ES (1) ES2338418T3 (es)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4476355B2 (ja) * 2006-05-04 2010-06-09 株式会社ソニー・コンピュータエンタテインメント エコー及びノイズキャンセレーション
JP4703787B2 (ja) * 2009-01-28 2011-06-15 三菱電機株式会社 音声認識装置
DE102013000897B4 (de) 2013-01-18 2023-07-06 Volkswagen Aktiengesellschaft Verfahren und Vorrichtung zur Spracherkennung in einem Kraftfahrzeug mittels Garbage-Grammatiken
US9208781B2 (en) 2013-04-05 2015-12-08 International Business Machines Corporation Adapting speech recognition acoustic models with environmental and social cues

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2163032C2 (ru) * 1995-09-14 2001-02-10 Эрикссон Инк. Система адаптивной фильтрации аудиосигналов для улучшения разборчивости речи при наличии шума
US5970446A (en) * 1997-11-25 1999-10-19 At&T Corp Selective noise/channel/coding models and recognizers for automatic speech recognition
EP1096471B1 (en) * 1999-10-29 2004-09-22 Telefonaktiebolaget LM Ericsson (publ) Method and means for a robust feature extraction for speech recognition
US20020087306A1 (en) * 2000-12-29 2002-07-04 Lee Victor Wai Leung Computer-implemented noise normalization method and system

Also Published As

Publication number Publication date
EP1445759B1 (de) 2010-02-24
DE10305369A1 (de) 2004-11-04
DE10305369B4 (de) 2005-05-19
EP1445759A1 (de) 2004-08-11
DE502004010791D1 (de) 2010-04-08

Similar Documents

Publication Publication Date Title
CN108320733B (zh) 语音数据处理方法及装置、存储介质、电子设备
CN103971678B (zh) 关键词检测方法和装置
CN103426428B (zh) 语音识别方法及系统
ES2454249T3 (es) Procedimiento de detección de segmentos de habla
US10540979B2 (en) User interface for secure access to a device using speaker verification
CN103700371B (zh) 一种基于声纹识别的来电身份识别系统及其识别方法
CN103943105A (zh) 一种语音交互方法及系统
US9934793B2 (en) Method for determining alcohol consumption, and recording medium and terminal for carrying out same
CN104978963A (zh) 语音识别装置、方法以及电子设备
EP1505571A4 (en) AUTONAVIGATION SYSTEM AND VOICE RECOGNITION DEVICE FOR THIS
JP2002091466A (ja) 音声認識装置
CN1639768B (zh) 自动语音识别方法及装置
KR20130134620A (ko) 디코딩 정보를 이용한 끝점 검출 장치 및 그 방법
JP2000242294A (ja) 音声認識システムおよび方法
Vacher et al. Challenges in the processing of audio channels for ambient assisted living
ES2338418T3 (es) Procedimiento adaptativo al usuario para la modelizacion de ruidos.
KR20100020066A (ko) 감정 인식 장치 및 방법, 이를 이용한 콜센터 시스템
JP4293340B2 (ja) 対話理解装置
JP2013182150A (ja) 発話区間検出装置及び発話区間検出のためのコンピュータプログラム
DE60014583D1 (de) Verfahren und vorrichtung zur integritätsprüfung von benutzeroberflächen sprachgesteuerter geräte
KR20140035164A (ko) 음성인식시스템의 동작방법
WO2007114346A1 (ja) 音声認識装置
Zhang et al. A computer-assist algorithm to detect repetitive stuttering automatically
Rytting et al. Segmenting words from natural speech: subsegmental variation in segmental cues
CN100426818C (zh) 数据中心、移动通信终端、信息识别系统以及学习方法