ES2300046T3

ES2300046T3 - Dispositivo de analisis de voz y texto, y procedimiento correspondiente.

Info

Publication number: ES2300046T3
Application number: ES05777992T
Authority: ES
Inventors: Paul Walti; Carlo A. Trugenberger; Frank Cuypers; Christoph P. Walti
Original assignee: Swiss Reinsurance Co Ltd
Current assignee: Swiss Re AG
Priority date: 2004-08-13
Filing date: 2005-08-09
Publication date: 2008-06-01
Anticipated expiration: 2025-08-09
Also published as: US20080215313A1; EP1779271A2; EP1779271B1; US8428935B2; WO2006018411A3; US20070282598A1; EP1779263A1; DE502005002442D1; WO2006018041A1; ATE382903T1; WO2006018411A2

Abstract

Dispositivo de análisis de voz y texto (20) para formar un catálogo de búsqueda y/o clasificación que comprende, como mínimo, una base de datos lingüística (22) para asociar términos lingüísticos a registros de datos, de modo que los datos de voz y/o texto (10) se pueden clasificar y/o seleccionar mediante el dispositivo de análisis de voz y texto según los registros de datos, y en el que los términos lingüísticos comprenden, como mínimo, palabras clave y/o términos de búsqueda, caracterizado porque: - la base de datos lingüística (22) comprende nexos de palabras y/o términos compuestos de significado similar y los nexos son asociables a grupos de sinónimos de una tabla de taxonomía (21); porque - el dispositivo de análisis de voz y texto (20) comprende una módulo de ponderación (23) para ponderar elementos de la tabla de taxonomía (21) en función de la frecuencia de aparición de cada nexo de la base de datos lingüística (22); porque - el dispositivo de análisis de voz y texto (20) comprende un módulo de integración (24), de modo que con el módulo de integración (24) se puede generar una matriz de contenido ponderada multidimensional en base a los aglomerados de elementos de la tabla de taxonomía (21); porque - el dispositivo de análisis de voz y texto (20) comprende, como mínimo, un módulo de red neuronal (26) para clasificar y/o seleccionar los datos de voz y/o texto (10) en base a la matriz de contenido, de modo que se pueden determinar, para uno o varios grupos de temas, descriptores de condiciones límite correspondientes al dispositivo de análisis de voz y texto (20).

Description

Dispositivo de análisis de voz y texto, y procedimiento correspondiente.

La presente invención se refiere a un sistema y un procedimiento para el análisis automatizado de voz y texto mediante la formación de un catálogo de búsqueda y/o clasificación, en el que se adquieren los registros de datos mediante una base de datos lingüística y se clasifican y/o seleccionan los datos de voz y/o texto según los registros de datos (palabras clave y/o términos de búsqueda). La invención se refiere, en especial, a un producto de programa de ordenador para la realización de este procedimiento.

En los últimos años ha aumentado exponencialmente la importancia de las grandes bases de datos, especialmente de las bases de datos descentralizadas entrelazadas, por ejemplo, a través de redes tales como la principal red mundial de Internet. Mediante dichas bases de datos y redes se ofrecen cada vez más mercancías y servicios. Esto ya se observa por la omnipresencia actual de Internet. En especial debido a la disponibilidad y cantidad de tales datos, han adquirido enorme importancia, por ejemplo, en Internet las herramientas para buscar y encontrar documentos pertinentes y/o para clasificar los documentos encontrados. Son conocidas las herramientas para estructuras de bases de datos descentralizadas y bases de datos en general. En la red Internet se habla con frecuencia de los "motores de búsqueda" ("search engines"), tales como los conocidos Google^{TM}, Alta Vista^{TM} o las tablas de enlaces estructuradas preordenadas tales como, por ejemplo, Yahoo^{TM}.

El problema de la búsqueda y/o catalogación del contenido de los documentos a procesar en una o varias bases de datos comprende, entre otras cosas, las siguientes tareas: (1) indexado o catalogación del contenido de los documentos a procesar ("Content Synthesis" ("síntesis de contenido")); (2) realización de la consulta de búsqueda mediante los documentos indexados y/o catalogados ("Content Retrieval" ("recuperación de contenido")). Normalmente, los datos a indexar y/o catalogar comprenden documentos no estructurados, por ejemplo, texto, descripciones y enlaces. En las bases de datos más complejas los documentos también pueden contener datos multimedia, por ejemplo, imágenes, datos de sonido/voz, datos vídeo, etc. En Internet pueden ser, por ejemplo, datos que se pueden descargar de un sitio web usando enlaces ("Links").

La memoria de patente US6714939 describe un procedimiento y sistema de este tipo, destinado a convertir texto puro o documentos de texto en datos estructurados. El sistema del estado de la técnica se puede utilizar, en especial, para consultar y/o encontrar los datos de una base de datos.

Las redes neuronales son conocidas en el estado de la técnica y se utilizan, por ejemplo, para resolver problemas de optimización, reconocimiento de imágenes ("Pattern recogition" ("reconocimiento de formas")), en la inteligencia artificial, etc. De forma correspondiente a las redes de nervios biológicas, una red neuronal consta de múltiples nudos de red, las llamadas neuronas, que están conectadas entre sí mediante conexiones ponderadas (sinapsis). Las neuronas, están organizadas y conectadas entre sí en capas de red ("Layers"). Cada neurona es activada en función de sus señales de entrada y genera una correspondiente señal de salida. La activación de una neurona se realiza con un factor de ponderación individual mediante la sumatoria de las señales de entrada. Tales redes neuronales tienen una capacidad de aprendizaje, modificando sistemáticamente los factores de ponderación en función de los ejemplos de valores de entrada y salida predeterminados hasta que la red neuronal, dentro de una zona de error predeterminada predecible, muestre un comportamiento deseado, por ejemplo, la predicción de valores de salida para futuros valores de entrada. De esta forma, las redes neuronales poseen una capacidad de adaptación para aprender y almacenar conocimientos, y capacidades asociativas para comparar informaciones nuevas con conocimientos almacenados. Las neuronas (nudos de red) pueden adoptar un estado de reposo o un estado de excitación. Cada neurona tiene varias entradas y una sola salida, que está conectada a las entradas de otras neuronas de la capa de red subsiguiente o bien, en el caso de un nudo de salida, representa un correspondiente valor de salida. Una neurona pasa al estado excitado cuando se excita un número suficiente de entradas de la neurona hasta superar un determinado valor umbral, es decir, cuando la sumatoria de las entradas alcanza un determinado valor umbral. Las ponderaciones de las entradas de la neurona y el valor umbral de la neurona almacenan el conocimiento mediante adaptación. Con el proceso de aprendizaje se adiestran las ponderaciones de una red neuronal (ver, por ejemplo, G. Cybenko, "Approximation by Superpositions of a sigmoidal function" ("Aproximación por superposición de una función sigmoidal"), Math. Control, Sig. Syst., 2, 1989, pp 303-314; M.T. Hagan, M.B. Menjaj, "Training Feedforward Networks with the Marquardt Algorithm" ("Adiestramiento de redes unidireccionales con el algoritmo de Marquardt"), IEEE Transactions on Neural Networks, Vol. 5, Nr. 6, pp 989-993, November 1994; K. Hornik, M. Stinchcombe, H. White, "Multilayer Feedforward Networks are universal Approximators" ("Las redes unidireccionales multicapa son aproximadores universales"), Neural Networks, 2, 1989, pp 359-366 etc.).

Contrariamente a las "Supervised Learning Neural Nets" ("Redes neuronales de aprendizaje supervisado"), en el proceso de aprendizaje de las "Unsupervised Learning Neural Nets" ("Redes neuronales de aprendizaje no supervisado") no se da a la red neuronal ningún esquema de salida deseado. En este caso, es la red misma la que intenta llegar a una representación lo más razonable posible de los datos de entrada. Por ejemplo, en el estado de la técnica, los llamados "Topological Feature Maps" ("Mapas topológicos de rasgos") (TFM) tales como los mapas de Kohonen. Con los "TFM", la red intenta distribuir los datos de entrada del modo más razonable posible entre varias clases predeterminadas. Así pues, se utiliza como clasificador. Con los clasificadores se intenta subdividir en un número de subgrupos un espacio de propiedades, es decir, un conjunto de datos de entrada, de la manera más razonable posible. En la mayoría de los casos, el número de subgrupos o clases está prefijado. Para la palabra "razonable" se pueden aplicar todas las interpretaciones que se deseen. Una interpretación habitual para un clasificador sería, por ejemplo: "Conforma las clases de manera que la suma de las distancias entre los vectores de propiedades y los puntos centrales de las clases a las que se asignan sea la menor posible." Así pues, se introduce un criterio a maximizar o minimizar. La tarea del algoritmo de clasificación es realizar la clasificación de los datos de entrada según este criterio en el menor tiempo posible.

Los "TFM", por ejemplo, los mapas de Kohonen, permiten representar un espacio de propiedades de muchas dimensiones como espacio de pocas dimensiones conservando sus características más importantes. Se diferencian de otras clases de redes neuronales porque en la fase de aprendizaje de un esquema de entrada no se predetermina ningún esquema de salida explícito o implícito. Durante su fase de aprendizaje, los "TFM" adaptan los atributos del espacio de propiedades utilizado. La relación entre un clasificador tradicional y una red neuronal autoorganizativa o un mapa topológico de rasgos "TFM" radica en que el esquema de salida de un "TFM" generalmente consta de una sola neurona excitada. El esquema de entrada se asocia a la clase de neurona de salida excitada. En mapas "TFM" en los que pueden estar excitadas varias neuronas de la capa de salida, por lo general sencillamente se valora como clase la neurona que tiene el mayor nivel de excitación, y se asigna a ella el esquema de salida. De esta manera, el modelo continuo de un clasificador en el que una propiedad se asocia a una clase en determinados grados se convierte en un modelo
discreto.

También forma parte del estado de la técnica el empleo de mapas de Kohonen. Por ejemplo, una de esas aplicaciones se describe en el documento XP002302269 de Farkas J. "Using Kohonen Maps to Determine Document Similaritiy" ("Uso de mapas de Kohonen para determinar la similitud de documentos"). En primer lugar, se prepara para un problema planteado un vocabulario específico del área en cuestión ("palabras clave") y luego se diseña un tesauro específico para el problema (según ISO 2788). Sin embargo, este sistema conocido tiene el inconveniente de que solamente se pueden extraer de los documentos a clasificar los términos que también aparecen en el tesauro diseñado. Especialmente por este motivo, este sistema no permite automatizar la solución de problemas. A partir de los extractos citados se forman los vectores que finalmente entran en un mapa de Kohonen con un tamaño prefijado. Como medida de similitud se emplea la clásica métrica euclidiana. En otro sistema del estado de la técnica (Iritano S. y M. Ruffolo: "Managing the knowledge contained in electronic documents: a clustering method for text miniming" ("Gestión del conocimiento contenido en documentos electrónicos: método de formación de clústeres para minería de textos"), XP010558781), se seleccionan palabras de los documentos a analizar, se reducen a sus lemas (análisis lexicográfico) y se determinan las frecuencias por documento de las diferentes palabras clave. Se pueden omitir palabras predeterminadas que carecen de interés. Las palabras clave (que en la publicación se designan como sinónimos) se indexan para la búsqueda y por último se emplea un algoritmo especial de "clústering" que utiliza el solapamiento de las palabras en los diversos documentos como medida de la similitud. Cuando el sistema se limita a documentos en inglés, también es posible realizar una interpretación semántica mediante la base de datos léxica "WordNet" de la Universidad de Princeton. Uno de los inconvenientes de este sistema conocido es que el procedimiento sólo suministra clústeres abstractos que no permiten una interpretación semántica sin una oportuna intervención humana, es decir, que tampoco este sistema del estado de la técnica permite una verdadera automatización del procedimiento. Por otra parte, la limitación a la "WordNet" de la Universidad de Princeton como base de conocimiento es una restricción que, por ejemplo, no permite una aplicación para varios idiomas o una taxonomía
universal.

Otro sistema del estado de la técnica que da a conocer el documento WO 03/052627 A1 de Semper Peter Paul y otros, "Information Resource Taxonomy" ("Taxonomía de recursos de información") describe un procedimiento que determina la frecuencia de aparición de palabras en documentos y forma clústeres según la especificación "TACT" (PCT/AU01/00198). En una etapa previa se determinan para la reducción de ruido ("noise reduction"), locuciones frecuentes y se suprimen cuando su frecuencia supera un límite determinado. Sin embargo, la memoria de patente se refiere básicamente a un procedimiento para la generación automática de jerarquías de clústeres, es decir, clústeres jerárquicamente estructurados de documentos. El término "resource taxonomy" ("taxonomía de recursos") utilizado en esta patente se refiere a la ordenación de los clústeres de documento (comparable a una estructura jerárquica de directorios para el archivado lógico de documentos). En el documento WO 03/052627 A1 se designa como "Taxonomía" una estructura clúster de directorios. En cambio, en el presente documento se designa como "taxonomía", según la invención, la clasificación de las palabras y términos según su contenido. Por último, la memoria de patente US 6711585 B1 "System and Method for Implementing a Knowledge Management System" ("Sistema y método para aplicar un sistema de gestión del conocimiento") del inventor Copperman Max y otros da a conocer un procedimiento similar al del documento WO03/052627A1, con el diseño de una jerarquía de clústeres y la asociación de documentos y consulta a un clúster especial. Los documentos individuales se estructuran formalmente como "Knowledge Container" ("contenedor de conocimiento") (constituido por metadatos, marcas de taxonomía, contenido marcado, contenido original y enlaces). El inconveniente de este sistema conocido es, entre otras cosas, que la formación de clústeres se refiere a documentos individuales, por lo que no es posible realizar una verdadera adquisición global de los términos presentes en los documentos. Con ello, se impide o se obstaculiza considerablemente un procesado ulterior. En especial, esto impide la adecuada automatización del
procedimiento.

El objeto de la presente invención es proponer un nuevo sistema y procedimiento automatizado para formar un catálogo de búsqueda y/o clasificación, que no presente los inconvenientes mencionados del estado de la técnica. En especial, se propone un procedimiento automatizado sencillo y racional para clasificar y/o seleccionar, y/o indexar consultas de búsqueda, múltiples datos de voz y/o texto, por ejemplo, almacenados de forma accesible en una o varias bases de datos. La invención debe generar un procedimiento de indexado para una búsqueda temática eficiente y fiable, es decir, para encontrar documentos lo más similares posible a una consulta dada constituida por un documento completo de texto o bien por palabras clave individuales. Además, la invención debe generar una medida claramente definida para la evaluación objetiva de la similitud entre dos durante su comparación y para la clasificación jerárquica de los documentos. Además, la invención debe generar un procedimiento para la identificación de clústeres de documentos conexos, es decir, de documentos casi idénticos (distintas versiones del mismo documento, con pequeñas modificaciones).

Según la presente invención, este objetivo se consigue, en especial, gracias a los elementos de las reivindicaciones independientes. De las reivindicaciones dependientes y de la descripción se desprenden otras formas de realización ventajosas.

La invención consigue estos objetivos, en especial, porque mediante un dispositivo de análisis de voz y/o texto se forma un catálogo de búsqueda y/o clasificación que comprende, como mínimo, una base de datos lingüística para asociar términos lingüísticos a registros de datos, de modo que los términos lingüísticos comprenden, como mínimo, palabras clave y/o términos de búsqueda, y los datos de voz y/o texto son clasificables y/o seleccionables en función de los registros de datos; porque el dispositivo de análisis de voz y/o texto comprende una tabla de taxonomía con nudos de taxón variables basados en la base de datos lingüística, de modo que se pueden asociar uno o varios registros de datos a un nudo de taxón de la tabla de taxonomía, y de modo que cada registro de datos comprende un factor de significación variable para evaluar los términos en base a, como mínimo, palabras expletivas y/o palabras de enlace y/o palabras clave; porque cada nudo de taxón comprende adicionalmente un parámetro de ponderación para adquirir las frecuencias de aparición de términos en los datos de voz y/o texto a clasificar y/o seleccionar; porque el dispositivo de análisis de voz y/o texto comprende un módulo de integración para determinar un número predefinible de aglomerados en base a los parámetro de ponderación de los nudos de taxón de la tabla de taxonomía, de modo que un aglomerado comprende, como mínimo, un nudo de taxón; y porque el dispositivo de análisis de voz y/o texto comprende, como mínimo, un módulo de red neuronal para clasificar y/o seleccionar los datos de voz y/o texto en base a los aglomerados de la tabla de taxonomía. Por ejemplo, la base de datos lingüística puede comprender registros de datos multilingües. Esta variante de realización tiene, entre otras, la ventaja de que se pueden agrupar de forma lógica la colección de documentos o los datos en general en bases de datos, en especial, en bases de datos descentralizadas, sin intervención humana (por ejemplo, sin el adiestramiento de una red, sin la preparación de una taxonomía específica para el contenido, etc.). Además, se puede crear una visión general del contenido temático de una colección de documentos mediante un mapa topológico. Así pues, se puede considerar que este dispositivo y procedimiento automatizado son un avance decisivo de los procedimientos de "table of content" ("índices de contenido"). En especial, la invención crea una herramienta muy fiable y eficiente para las búsquedas temáticas (reconocimiento de documentos en función de una entrada de búsqueda en lenguaje natural), adicional a la búsqueda convencional según el estado de la técnica mediante una combinación de términos de búsqueda. En especial, los resultados de la búsqueda se pueden representar visualmente de forma muy sencilla mediante la proyección sobre el mapa topológico y/o geográfico ("Map") en forma de un llamado "heat map" ("mapa térmico"), contrariamente a los formatos de listas convencionales no clasificados por categorías. La invención también genera una medida bien controlable para comparar documentos y/o evaluar su similitud. Además, la invención genera un auténtico sistema multilingüe de gestión del conocimiento con funciones de búsqueda que abarcan varios idiomas. Esto no ha sido posible hasta ahora con el estado de la técnica. Por último, la invención también permite la generación automatizada de "descriptores", los cuales reproducen la característica de contenido de un documento (también con los atributos trans-idiomáticos). De este modo, la invención crea un procedimiento de indexado para búsquedas temáticas eficientes y fiables, es decir, para encontrar documentos lo más similares posible a la consulta realizada mediante un documento completo de texto o con palabras clave individuales. La invención también genera una medida claramente definida para la evaluación objetiva de la similitud entre dos documentos durante su comparación y durante la clasificación jerárquica de los documentos. Adicionalmente, la invención crea un procedimiento para la identificación de clústeres de documentos conexos, es decir, de documentos casi idénticos (versiones diferentes de un mismo documento, con pequeñas
modificaciones).

Una variante de realización comprende, como mínimo una base de datos lingüística para asociar términos lingüísticos a registros de datos, de modo que mediante el dispositivo de análisis de voz y/o texto se pueden clasificar y/o seleccionar los datos de voz y/o texto en función de los registros de datos, de modo que los términos lingüísticos comprenden, como mínimo, palabras clave y/o términos de búsqueda, la base de datos lingüística comprende nexos de palabras y/o términos compuestos de significado similar, siendo dichos nexos asociables a grupos de sinónimos de una tabla de taxonomía, de modo que el dispositivo de análisis de voz y/o texto comporta un módulo de ponderación para ponderar elementos de la tabla de taxonomía en función de la frecuencia de aparición de cada nexo de la base de datos lingüística, y de modo que el dispositivo de análisis de voz y/o texto comprende un módulo de integración con el cual se puede generar una matriz de contenido ponderada multidimensional en base a los aglomerados de elementos de la tabla de taxonomía, y de modo que el dispositivo de análisis de voz y/o texto comprende, como mínimo, un módulo de red neuronal para clasificar y/o seleccionar los datos de voz y/o texto en base a la matriz de contenidos, de modo que mediante descriptores definibles del dispositivo de análisis de voz y/o texto se puedan determinar las correspondientes condiciones límite para uno o varios grupos temáticos. Esta variante de realización tiene, entre otras, las mismas ventajas que la anterior. En especial, igual que en el caso anterior, por ejemplo, ya no es necesaria la intervención humana previa para la clasificación de cualquier colección de documentos; no es necesario preparar un vocabulario especial, una taxonomía especial, un tesauro especial y, sobre todo, no requiere un costoso adiestramiento para la clasificación de documentos. Además, el problema del multilingüismo se resuelve de forma coherente (la traducción inglesa de un documento alemán recibe la misma clasificación que el documento original alemán). Estas son las consecuencias directas de la referencia a la base de datos lingüística con la taxonomía universal y la proyección de diseño oportuno sobre un espacio de contenidos óptimo. Esto no se ha conseguido hasta ahora, ni siquiera aproximadamente, con los sistemas del estado de la técnica.

En una variante de realización, el módulo de red neuronal comprende, como mínimo, uno o varios mapas de Kohonen autoorganizativos. Esta variante de realización tiene, entre otras, las mismas ventajas que la variante de la realización anterior. Además la utilización de técnicas de redes autoorganizativas, por ejemplo, "SOM" o mapas de Kohonen, permite una automatización adicional del procedimiento.

En otra variante de realización, el dispositivo de análisis de voz y/o texto comprende un módulo de entropía para determinar un parámetro de entropía almacenable en un módulo de memoria en función de la distribución de un registro de datos en los datos de voz y/o texto. El parámetro de entropía puede ser el resultado de la fórmula: Entropía_{DR} = In(freqsum_{DR}) - \sum F_{DR} In(F_{DR})/freqsum_{DR}. Esta variante de realización tiene, entre otras, la ventaja de que se puede determinar adicionalmente un parámetro de relevancia. Un término que está ampliamente difundido en la totalidad de los datos de voz y/o texto o en todos los documentos tiene una entropía elevada y contribuirá poco a la diferenciación de los documentos. Por ello, la entropía puede contribuir considerablemente a la eficiencia del dispositivo y del procedimiento según la invención.

En otra variante de realización, el dispositivo comprende una tabla hash asociada a la base de datos lingüística, de modo que mediante un valor hash se pueden identificar en la tabla hash los registros de datos lingüísticamente enlazados. Esta variante de realización tiene, entre otras, la ventaja de que se pueden encontrar mucho más rápidamente y de modo más eficiente los registros de datos lingüísticamente enlazados, tales como "common" ("común"), "sense" ("sentido") y "common sense" ("sentido común").

En otra variante de realización, se pueden asociar, por ejemplo, los registros de datos de un idioma mediante un parámetro de idioma, y marcarlos como sinónimos en la tabla de taxonomía. Esta variante de realización tiene, entre otras, la ventaja de que, mediante el dispositivo de análisis de voz y/o texto también se pueden clasificar y/o seleccionar datos de texto o voz multilingües.

En una forma de realización, los aglomerados se pueden asociar a una matriz de contenidos n-dimensional de un espacio de contenidos n-dimensional. Por ejemplo, "n" puede ser igual a 100. No obstante, se señala que cualquier otro número natural puede ser adecuado para determinadas aplicaciones. Esta variante de realización tiene, entre otras, la ventaja de que es justamente lo que permite la asociación eficiente a las redes autoorganizativas, dado que, en otro caso, el espacio de contenidos posee demasiados grados de libertad como para poder seguir dando resultados significativos, o bien demasiado pocos grados de libertad, por lo que también deja de dar resultados
significativos.

En una variante de realización, el dispositivo de análisis de voz y/o texto comprende descriptores mediante los cuales se pueden determinar condiciones límite para un grupo temático que se corresponden con descriptores definibles. Esta variante de realización tiene, entre otras, la ventaja de que los documentos se llevan al área global correcta mediante la técnica "SOM" ("Self-organizing Maps" ("mapas autoorganizativos")).

En otra variante de realización, los nudos de taxón de la tabla de taxonomía se generan en función de una base de datos lingüística universal temáticamente independiente, de forma que la base de datos abarca la base de datos lingüística universal temáticamente independiente. Esta variante de realización tiene, entre otras, la ventaja de que por primera vez se puede realizar de forma totalmente automatizada la catalogación y/o el indexado sobre la base de una taxonomía no específica de temas y que por ello no es necesario predefinir.

Se señala que la presente invención, aparte del procedimiento según la invención, también se refiere a un dispositivo para la realización de dicho procedimiento. Además, la invención no se limita al sistema y al procedimiento citado, sino que igualmente se refiere a un producto de programa de ordenador para la realización del procedimiento según la invención.

Se describen a continuación variantes de realización de la presente invención, sobre la base de ejemplos. Los ejemplos de realización se ilustran mediante las siguientes figuras adjuntas:

- la figura 1 muestra un diagrama de bloques que ilustra esquemáticamente el procedimiento según la invención.

- la figura 2 también muestra un diagrama de bloques que ilustra la utilización de un dispositivo, según la invención, en una red de bases de datos descentralizadas y/o fuentes de datos para la adquisición temática y/o catalogación y/o control del flujo de datos en la red.

- la figura 3 muestra un diagrama de bloques que ilustra la estructura de una tabla de taxonomía (21).

\newpage

- la figura 4 muestra un diagrama de bloques que ilustra esquemáticamente la formación de clústeres de aglomeración en la tabla de taxonomía.

- la figura 5 muestra un diagrama de bloques que ilustra esquemáticamente un ejemplo de la combinación de clústeres de aglomeración en áreas temáticas.

- la figura 6 muestra un diagrama de bloques que ilustra esquemáticamente un mapa de información o un mapa de Kohonen. Mediante la técnica "SOM", los documentos a analizar, es decir, la totalidad de los datos de texto y voz (10), se agrupan con condiciones límite en un conjunto de neuronas de 2 dimensiones (mapa de información), mediante el módulo de red neuronal (26).

- la figura 7 muestra un diagrama de flujo que ilustra las etapas de procedimiento del análisis inicial de colecciones de documentos, en forma de etapa de "Text Mining" ("minería de texto").

- la figura 8 muestra un esquema para la generación de clústeres en una neurona. "DocEps" corresponde a una tolerancia determinable para la distancia máxima entre miembros de un clúster.

Las figuras 1 a 6 ilustran esquemáticamente una arquitectura que se puede utilizar para realizar la invención. En este ejemplo de realización, el dispositivo de análisis de voz y/o texto para la formación de un catálogo de búsqueda y/o clasificación comprende, como mínimo, una base de datos lingüística (22) para asociar términos lingüísticos a registros de datos. Por ejemplo, la base de datos lingüística (22) también puede comprender registros de datos. Los registros de datos pueden ser asociables a un idioma mediante un parámetro de idioma y, por ejemplo, ser marcables como sinónimos en la tabla de taxonomía (21). Por ejemplo, la base de datos lingüística (22) puede estar asociada a una tabla hash, de modo que los registros de datos lingüísticamente enlazados pueden ser identificables en la tabla hash mediante un valor hash. Mediante el dispositivo de análisis de voz y texto, y los datos de voz y/o texto (10) correspondientes a los registros de datos son clasificables y/o seleccionables. Los términos lingüísticos comprenden, como mínimo, palabras clave y/o términos de búsqueda. Es importante señalar que los datos de voz y/o texto también pueden comprender datos de tipo muy general tales como datos multimedia, es decir, entre otros, datos digitales tales como textos, gráficos, imágenes, mapas, animaciones, imágenes móviles, vídeo, de formato "Quicktime", grabaciones de sonido, programas (software), datos que acompañan programas e hiperenlaces o enlaces a datos multimedia. Entre ellos también están, por ejemplo, los estándares MPx (MP3) o MPEGx (MPEG4 o 7) que define el "Moving Picture Experts Group" ("Grupo de Expertos de Imágenes en Movimiento").

El dispositivo de análisis de voz y/o texto comprende una tabla de taxonomía (21) con nudos de taxón variables. Se pueden asociar uno o varios registros de datos a un nudo de taxón de la tabla de taxonomía (21). Cada registro de datos comprende un factor de significancia variable para evaluar los términos en base a, como mínimo, palabras expletivas y/o palabras de enlace y/o palabras clave. El dispositivo de análisis de voz y/o texto comprende un módulo de ponderación (23). Para cada nudo de taxón existe adicionalmente un parámetro de ponderación para adquirir las frecuencias de aparición de los términos contenidos en los datos de voz y/o texto (10) a clasificar y/o seleccionar. El dispositivo de análisis de voz y/o texto comprende un módulo de integración (24) para determinar un número predefinible de aglomerados en base a los parámetros de ponderación de los nudos de taxón de la tabla de taxonomía (21). Un aglomerado comprende, como mínimo, un nudo de taxón. Por ejemplo, los aglomerados pueden formar un espacio de contenidos n-dimensional. Como ejemplo de realización se puede elegir, por ejemplo, "n" igual a 100. El dispositivo de análisis de voz y/o texto comprende, como mínimo, un módulo de red neuronal (26) para clasificar y/o seleccionar los datos de voz y/o texto (10) en base a los aglomerados de la tabla de taxonomía (21). Por ejemplo, el módulo de red neuronal (26) puede comportar, como mínimo, un "Topological Feature Map" ("mapa topológico de rasgos") (TFM), por ejemplo, un mapa de Kohonen autoorganizativo. Por ejemplo, mediante descriptores definibles se pueden determinar las correspondientes condiciones límite para un grupo
temático.

El dispositivo de análisis de voz y/o texto puede comportar adicionalmente, por ejemplo, un módulo de entropía (25) para determinar un parámetro de entropía almacenable en un módulo de memoria, basado en la distribución de los datos de voz y/o texto (10) de un registro de datos. Por ejemplo, el módulo de entropía (25) se puede realizar con software o con hardware. Por ejemplo, el parámetro de entropía puede ser:

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

1

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

Los resultados, es decir, la información producida, se pueden representar, por ejemplo para un usuario, en una unidad de salida (28) y también, por ejemplo, mediante una red (40), (41), (42).

Para las funciones de análisis y búsqueda, se pueden dividir los datos de texto o voz a analizar tales como, por ejemplo, un documento de sólo texto, en los siguientes componentes:

a) Un vector n-dimensional para caracterizar el contenido temático del documento. Para el valor "n" se puede elegir, por ejemplo, n = 100;

b) "m" descriptores, los cuales son característicos del documento y constituyen condiciones límite para la optimización. El número de descriptores puede ser, por ejemplo, m = 20;

c) Un conjunto de metadatos que se pueden extraer automáticamente del documento, es decir, por ejemplo, el título del documento, el autor, la fecha de creación del documento, el lugar o la dirección del documento, así como una URL ("Unified Resource Location" ("localizador uniforme de recursos")), el formato de fichero PDF ("Portable Document Format" ("formato de documento portátil")), el formato Microsoft Word, HTML ("Hyper Text Markup Language" ("lenguaje de etiquetas de hipertexto")), HDML ("Handheld Device Markup Language" ("lenguaje de marcas para dispositivos manuales")),WML ("Wireless Markup Language" ("lenguaje de marcas inalámbrico")), VRML ("Virtual Reality Modeling Language" ("lenguaje para modelado de realidad virtual" XML ("Extensible Markup Language" ("lenguaje de marcas extensible")), JPEG ("Joint Photographic Experts Group" ("grupo conjunto de expertos en fotografía")), MPEG ("Moving Picture Experts Group" ("grupo de expertos de imágenes en movimiento")), el número de palabras y/o términos, el número de números enteros y/o racionales, el idioma de la mayoría de los términos que contiene el documento, las reglas o características adicionales, etc.

Los ejes del espacio de contenidos n-dimensionales dependen de la composición temática y/o las correlaciones internas de la totalidad de los datos de voz y/o texto (10) a analizar. Los ejes pueden estar razonablemente diseñados de forma que reproduzcan del mejor modo posible las áreas temáticas relevantes de los datos de voz y/o texto (10) y no se represente o bien se suprima considerablemente el ruido de fondo ("Noise"). La generación de los ejes y de la proyección se basan en la citada base de datos (22) lingüística y, por ejemplo, multilingüe, la cual está asociada a una taxonomía universal o a un árbol taxonómico universal. "Universal" significa que no es necesario predeterminar mediante la taxonomía un área definida con anterioridad a la catalogación y/o el indexado de los datos de texto y/o voz (10). Hasta ahora, el estado de la técnica no permitía realizar esto de esta manera.

Las palabras, términos y/o locuciones que aparecen en un documento se comparan con una amplia lista de palabras almacenada en la base de datos lingüística (22). En este contexto, se denominan "locuciones" a las expresiones pluriverbales fijas tales como, por ejemplo, los conceptos "nuclear power plant" ("central eléctrica nuclear"), "Commision of Human Rights" ("Comité de Derechos Humanos"), "Europäisches Patentamt" o bien "Office européen des brevets" ("Oficina Europea de Patentes"). En el ejemplo de realización, se ha determinado que para esta base de datos lingüística (22) son suficientes 2,2 millones de entradas para los idiomas inglés, francés, alemán e italiano, si bien para poder funcionar la base de datos (22) lógicamente puede comprender cualquier cantidad mayor o menor de entradas. Por ejemplo, las palabras/locuciones con el mismo significado (sinónimos) se pueden reunir en grupos de sinónimos ("synsets"), por ejemplo, también de modo conjunto para todos los idiomas. Estos grupos de sinónimos se asocian a un nudo de taxón en la tabla de taxonomía o árbol taxonómico jerárquico. La distribución de los aciertos de nudos de taxón (entradas) para determinados datos de voz y/o texto (10) o para un documento a analizar constituye una medida fiable de su contenido temático.

La figura 3 muestra una estructura del tipo de una tabla de taxonomía (21). Por ejemplo, las entradas de cada idioma pueden estar estructuradas de la siguiente manera:

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

(Tabla pasa a página siguiente)

2

3

\text{*}): El término "gift" existe en inglés y en alemán, pero tiene un significado totalmente distinto en cada uno de estos idiomas.

Además, existen términos con diferentes acepciones en el mismo idioma. La palabra inglesa "fly", por ejemplo, se utiliza con la acepción "flight" (vuelo) o bien con su acepción de "trousers fly" (bragueta de pantalón). El término "window" significa una abertura/ventana, pero "windows" puede referirse a una abertura o a un sistema operativo. En cambio, "Windows XP" es unívoco.

Las etapas de procedimiento para un primer análisis de los datos de voz y/o texto (10) puede tener, por ejemplo, el siguiente aspecto:

(1) Introducción de un documento, es decir, de datos de voz y/o texto (10);

(2) Una primera evaluación del documento;

(3) Procesado de texto:

i): Extracción del término/locución.

ii): Comparación con entradas en la base de datos lingüística, teniendo en cuenta el idioma y las reglas léxicas para la asociación correcta. Generación mediante la base de datos de los códigos de synset y de hiperónimos, de significancia y de idioma.

iii): Generación de nuevos términos y/o synsets para términos o locuciones no encontradas.

iv): Determinación de la frecuencia por documento del término/locución.

v): Adaptación de idioma, en caso necesario;

(4) Almacenamiento asociado de la información;

(5) Siguiente documento o datos de voz y/o texto (10).

Para determinar la entropía y un índice de relevancia para cada synset (grupo de sinónimos), se calcula la frecuencia de cada synset (isyn) y cada idioma y/o datos de texto (10) o bien para cada documento (idoc) en base a:

4

donde f_{word} = frecuencia de la palabra en idoc, y sig_{word} = significancia de la palabra en función de la base de datos lingüística (0,...,4)

5

La ponderación viene dada por sig_{word}.

El factor norm(idoc) se puede introducir, por ejemplo, para evitar que documentos muy grandes sean predominantes en una determinada combinación de documentos. Este factor se puede determinar, por ejemplo, empíricamente.

La entropía de un sysnet isyn según la teoría de la información se puede determinar mediante la fórmula:

\vskip1.000000\baselineskip

6

\vskip1.000000\baselineskip

donde

\vskip1.000000\baselineskip

7

\vskip1.000000\baselineskip

Un synset ampliamente distribuido por todos los datos de voz y/o texto (10) o en todos los documentos, tiene una "entropía" elevada y contribuirá poco a la diferenciación entre los documentos. Por ejemplo, en caso de que se analicen documentos/artículos de una base de datos del periódico Neue Zürcher Zeitung, es lógico que el término "Neue Zürcher Zeitung" aparezca en todos los artículos, o en muchos de ellos, si bien no es apto para diferenciar el contenido de los documentos. Como medida de la relevancia general de un synset isyn se puede definir el "índice de relevancia" RI_{isyn} del modo siguiente:

\vskip1.000000\baselineskip

8

\vskip1.000000\baselineskip

Para determinar los ejes del espacio de contenidos n-dimensional (en este ejemplo de realización se ha elegido n = 100) se determina la relevancia de un hiperónimo (nudo de taxón en la tabla de taxonomía -21-), integrando todos los datos de texto y/o voz (10) a analizar para todos los índices de relevancia. Esta relevancia es una medida de la frecuencia total de aciertos de un nudo de taxón para la totalidad de los datos de texto y/o voz (10).

Esta medida muestra el área temática y/o las áreas temáticas que predominan en una colección de documentos. Teóricamente se puede asociar un eje del espacio de contenidos a cada nudo de taxón. Esto conduciría, por ejemplo, a un espacio de contenidos de más de 4.000 dimensiones, lo que ocasionaría una enorme sobrecarga del sistema y, además, tendría demasiados grados de libertad para una determinación de contenidos.

Por este motivo, por ejemplo, los nudos de taxón se pueden agrupar en clústeres, por ejemplo, en n-2 (n-2 = 98) clústeres diferentes, por ejemplo, con la condición de que la relevancia acumulada del "nudo padre" de clústeres de los nudos de taxón y de todos sus subnudos represente, como mínimo, un valor umbral predefinible (por ejemplo, 0,5%) de la relevancia total. El clúster se forma al nivel más bajo posible del árbol taxonómico o de la tabla de taxonomía. Este procedimiento es comparable, por ejemplo, a la formación de aglomerados en una demografía. A cada clúster (con todos los correspondientes synsets que enlazan con él) se asocia un eje del espacio de contenidos n-dimensional. Por ejemplo, el eje n-1 se utiliza para los sysnets que no remiten a un clúster de aglomeración, y los ejes "n" se reservan para cifras. La figura 4 muestra esquemáticamente la formación de un clúster de aglomeración de este tipo en la tabla de taxonomía.

Por último, se forman, por ejemplo, "ntop"áreas temáticas, cada una de ellas compuesta por un subgrupo determinado de clústeres de aglomeración (por ejemplo, "ntop" puede ser del orden de 10 a 20). Los aglomerados se forman de modo que los nudos de taxón de un clúster de aglomeración que pertenecen a la misma área temática ("Topics") posean un nudo padre común en la jerarquía de la tabla de taxonomía. La regla de transformación que de ello resulta puede ser, por ejemplo, que cada synset remite a uno de los clústeres de aglomeración seleccionados, según un eje del espacio de contenidos o bien un eje n-1. Un elevado número de synsets remiten a su vez a una de las ntop áreas temáticas situadas a un nivel de agregación superior. La figura 5 muestra un ejemplo de la combinación de un clúster de aglomeración en áreas temáticas.

Por ejemplo, para la proyección de los documentos a analizar, es decir, los datos de voz y/o texto (10), sobre el espacio de contenidos n-dimensional, se puede definir para cada documento idoc la componente de vector "c_{i}" para el eje "i" mediante:

9

siendo

10

donde F_{isyn}(idoc) viene dado por la fórmula anterior.

La unidad (la métrica) para el espacio n-dimensional se determina mediante la entropía total de todos los synsets que remiten a un eje "i" (\forallSynsets_{Eje-i}), de modo que se puede determinar la entropía total de una manera análoga a la de la entropía de los sysnets antes definida. Las ponderaciones "g_{i}" para las componentes "i" se pueden determinar, por ejemplo, mediante:

11

Por ejemplo, mediante esta definición los componentes con entropía baja, es decir, con un grado de distribución bajo ("high discrimination effect" ("efecto de discriminación elevado")) reciben una ponderación correspondientemente alta.

Para la elección de los "m" descriptores más típicos de un documento, es decir, determinados datos de voz y/o texto (10), se determina para cada synset "isyn" del documento idoc un valor de relevancia de synset Relev_{isyn}, por ejemplo, mediante:

12

Por ejemplo, se pueden elegir los "m" synsets que tienen el mayor valor de relevancia Relev_{isyn} como los "m" descriptores que son los más característicos de un documento idoc. Estos descriptores que, por ejemplo, pueden estar almacenados asociados a sus correspondientes hiperónimos, se utilizan para la catalogación y/o el indexado. Comprenden las características más importantes del documento, incluso en los casos en los que la proyección sobre el espacio de contenidos no queda reflejada de forma óptima por el contenido de un documento concreto.

Para la catalogación y/o indexado automatizado, se combina el procedimiento arriba mencionado, que se basa en el citado procedimiento de análisis estadístico y/o lingüístico, con uno o varios módulos de red neuronal (26). El procedimiento de análisis estadístico y/o lingüístico utiliza, tal como se ha descrito, una amplia tabla de taxonomía (21) universal para reconocer el contenido temático. Para obtener una panorámica de la totalidad de los datos de texto y/o voz (10), es decir, de todos los documentos idoc a analizar, así como para generar una función de comparación de similitud, se combinan los resultados del análisis lingüístico con tecnologías neuronales. Se ha observado que las llamadas técnicas "SOM" ("Self-Organizing-Map" "mapas autoorganizativos"), por ejemplo la de Kohonen, pueden ser muy adecuadas. Sin embargo, para un experto está claro que para determinadas aplicaciones también pueden ser razonables o más adecuadas otras técnicas de redes neuronales, sin que ello limite en modo alguno el ámbito de protección de la patente.

La técnica SOM se puede utilizar para el antes descrito procedimiento de proyección de los datos de voz y/o texto (10) a analizar, es decir, los documentos idoc, sobre el espacio de contenidos n-dimensional (por ejemplo, n = 100). Antes de que se pongan en marcha las iteraciones de redes neuronales mediante el módulo de red neuronal (26) (aprendizaje no supervisado), se puede utilizar, por ejemplo, un procedimiento aproximado de equilibrado de los grupos, a fin de obtener para la técnica SOM una evaluación inicial fiable. Este procedimiento puede acelerar considerablemente el proceso de iteración y minimizar el riesgo de que la técnica SOM conduzca a una configuración no óptima (por ejemplo, un mínimo local). Para el algoritmo SOM, la distancia entre dos vectores (documentos idoc) "a" y "b" se puede determinar, por ejemplo, del modo siguiente:

13

donde KL_{a,b} es la distancia de Kullback-Leibler entre dos documentos, por cuanto la asociación mediante un vector de contenido "c" de un documento idoc a un área temática "jtop" se mide con la fórmula:

14

siendo

15

Donde \forallKomponenten_{jtop} corresponde a todos los componentes que remiten a jtop.

16

También en este caso, \forallDeskriptoren_{jtop} corresponde a todos los descriptores que remiten a "jtop". ErrMS es el cálculo estimativo del error cuadrático medio (desviación) con, por ejemplo, ErrMS \geq 10^{-5}. Por ejemplo, las masas normalizadas

17

se pueden interpretar como las probabilidades de que el documento idoc pertenezca a una determinada área temática "jtop". La distancia de Kullback-Leibler entre dos documentos idoc y kdoc con vectores de contenido "a" y "b" viene dada por:

18

La parte de Kullback-Leibler de la distancia total hace que la técnica SOM conduzca los documentos al área global correcta. Así pues, la parte de Kullback-Leibler actúa como condición límite de la técnica SOM. En cambio, la parte métrica de la distancia total es responsable de la colocación local en las neuronas individuales de un área temática. Mediante la técnica SOM con condiciones límite, los documentos a analizar, es decir, todos los datos de texto y/o voz (10), se agrupan en un vector de neuronas bidimensional ("Informations-Map" ("mapa de informaciones")) con el módulo de red neuronal (26). La figura 6 muestra el resultado de este mapa de informaciones o mapa de Kohonen. Con ello, los documentos de una neurona son similares entre sí en lo que respecta a su contenido temático. Las neuronas se agrupan de modo que estén en el área temática global a la que están principalmente asociadas, y las neuronas temáticamente correlacionadas están próximas entre sí (ver la figura 6 con las áreas temáticas a,....,k).

En el procedimiento de comparación y evaluación, una consulta de búsqueda puede constar, por ejemplo, de un par de términos de búsqueda o bien un documento de texto en un lenguaje natural. Por ejemplo, el texto de búsqueda puede abarcar todo el contenido de un documento a fin de buscar documentos similares en la colección de documentos indexada y/o catalogada. Sin embargo, el texto de búsqueda también puede contener sólo una pequeña parte del documento en cuestión. Por este motivo, en ciertos casos la distancia métrica entre el texto de búsqueda y los documentos no puede ser un criterio fiable para encontrar los documentos más próximos al texto de la búsqueda. Se genera una medida más fiable para la comparación y la evaluación jerárquica mediante el producto escalar de los vectores de contenido. Esta medida garantiza que se tienen eficazmente en cuenta las partes comunes entre el texto de búsqueda y los documentos. Por ejemplo, se puede definir una medida de similitud entre el texto de búsqueda y un documento mediante la fórmula:

19

en la que "q" es el vector de contenido del texto de búsqueda, "c" es el vector de contenido de la neurona en la que está colocado el documento, y DescrSim es la medida de la similitud entre los "m" descriptores del texto de búsqueda y del documento (por ejemplo, m= 20), tal como se describe más adelante. El término DescrSim comprende la suma ponderada de pares de descriptores diferentes, de modo que los pares con descriptores idénticos en el texto de búsqueda y en el documento buscado se puedan ponderar, por ejemplo, hasta 100 puntos. Por ejemplo, los pares de descriptores que se refieren a un hiperónimo común (nudos de taxón en la tabla de taxonomía), se pueden ponderar con 30 puntos en caso de que el nudo de taxón común sea directamente el nudo de taxón de los descriptores, con 10 puntos en caso de que el nudo de taxón común esté un nivel jerárquico por encima, 3 puntos cuando el nudo de taxón esté dos niveles jerárquicos por encima y 1 punto cuando el nudo de taxón común está tres niveles jerárquicos por encima. Por ejemplo, con Relev_{isyn}() como valor de relevancia de los descriptores en un documento, se puede determinar que

20

donde

21

siendo m1 = número de pares concordantes (m1 \leq m). El producto escalar, igual que en la medida de similitud antes descrita, corresponde a la similitud entre una (colección parcial de documentos) y el texto de búsqueda. El término DescrSim cuantifica los detalles de los documentos individuales en una neurona dada. Por ejemplo, el factor "0,01" en la definición de DescrSim se puede determinar empíricamente. Por ejemplo, se puede determinar de forma que el producto escalar ("Cross Positioning" "posicionado recíproco") y las extensiones individuales (DescrSim) estén divididos de forma equilibrada.

Para la comparación y la ponderación con la medida de similitud antes definida, el procedimiento de comparación es claro. Por ejemplo, se encuentran los nDoc documentos más próximos a un determinado texto de búsqueda. En primer lugar se busca el área parcial con las neuronas de producto escalar más alto, hasta que el número de documentos seleccionados supere el valor límite de, por ejemplo, 3\cdotnDoc. Seguidamente se organizan decrecientemente los documentos seleccionados según sus valores de similitud (incluida la extensión DescrSim). Los primeros nDoc documentos forman el documento deseado en el orden de valoración. En caso de que la búsqueda temática no tenga sentido, es decir, por ejemplo, cuando la consulta de búsqueda está compuesta sólo por pocas palabras que no contribuyen a ningún contenido de diferenciación, se puede realizar la selección, por ejemplo, utilizando el índice de búsqueda para los synsets individuales dentro de un documento. La medida de similitud antes definida puede estar, por ejemplo, entre 0 y 2. La transformación en un porcentaje de valoración se puede realizar, por ejemplo, con la fórmula

\vskip1.000000\baselineskip

22

\vskip1.000000\baselineskip

El reconocimiento de derivados de documentos significa la identificación de los clústeres de documentos cuyo contenido es casi idéntico. Pueden ser, por ejemplo, copias distintas del mismo documento con pequeñas modificaciones tales como, por ejemplo, las memorias de patentes de una misma familia de patentes, cuyo texto y/o ámbito de protección puede variar levemente de un país a otro. El dispositivo y/o el procedimiento según la invención permiten la identificación automatizada de clústeres de documentos con documentos casi idénticos. Ofrecen además la posibilidad de suprimir documentos más antiguos y pueden constituir una herramienta para administrar y mantener actualizadas tales colecciones de documentos (por ejemplo, mediante una "limpieza" periódica).

Por ejemplo, la medida de similitud empleada para comparar y/o valorar los documentos cuando se identifican clústeres para un texto de búsqueda no siempre conduce a resultados satisfactorios para descubrir dichos clústeres. Para el "clústering" de documentos, la distancia entre dos documentos idoc1 y idoc2 se mide con sus vectores de contenido "a"y "b"con la fórmula

\vskip1.000000\baselineskip

23

\vskip1.000000\baselineskip

en la que DescrDist es la suma ponderada de la desviación de los descriptores. Por ejemplo, se puede determinar que los pares de descriptores correspondientes de dos conjuntos de "m" descriptores (por ejemplo, m=20) no aportan nada, mientras pares de descriptores no correspondientes se ponderan con 1 punto si tienen un nudo de taxón común directo, con 2 puntos si tienen un nudo de taxón común en un nivel de jerarquía superior y con 5 puntos en el resto de los casos. Por ejemplo, con Relev_{isyn}() como valor de relevancia de los descriptores existentes en un documento, se puede determinar que

24

con

25

Por ejemplo, el factor "0,1" en la definición de DescDist se puede determinar empíricamente ponderando recíprocamente de manera equilibrada la distancia métrica y las derivaciones de los descriptores.

El algoritmo SOM con condiciones límite garantiza que los candidatos para un determinado clúster de documentos se ubican en la misma neurona. De esta manera se puede conseguir individualmente el "clústering" para cada neurona. Por ejemplo, para los documentos contenidos en una neurona, se puede determinar la matriz de distancia con DocDist del modo antes descrito (matriz simétrica con todos los elementos 0 en la diagonal). La figura 8 muestra un esquema para la generación de clústeres en una neurona. DocEps representa una tolerancia determinable para el máximo de la distancia entre los miembros de un clúster.

Se señala que la presente invención se puede utilizar no sólo como dispositivo de análisis de voz y/o texto (20) para formar un catálogo de búsqueda y/o clasificación. Las aplicaciones son muy variadas en todos los aspectos. Por ejemplo, es posible reconocer y asignar automatizadamente a un área los datos contenidos en una o varias redes (40), (41), (42), por ejemplo, en Internet. Hasta ahora esto no se podía realizar en el estado de la técnica, dado que no era posible utilizar una tabla de taxonomía universal conjuntamente con la catalogación y/o el indexado automatizados. Las redes de comunicación (40), (41), (42) comprenden, por ejemplo, una red GSM o UMTS, o bien una red de telefonía móvil por satélite y/o una o varias redes fijas, por ejemplo, la red pública de telefonía, la red Internet de ámbito mundial, o una LAN ("Local Area Network" ("red de área local")) o WAN ("Wide Area Network" ("red de área amplia")) adecuada. En especial, también comprende las conexiones ISDN y XDSL. Por ejemplo, los usuarios pueden acceder a una o varias de las redes (30), (31), (32), (33) mediante cualquier aparato terminal con capacidad de conexión a redes, por ejemplo, un CPE ("Customer Premise Equipments" ("equipos en locales de cliente")), ordenadores personales (30), ordenadores portátiles (31), un PDA (32), transceptores móviles (33), etc., sobre los que actúan varias redes (40), (41), (42). Especialmente en los tiempos actuales, el dispositivo se puede utilizar, por ejemplo, no sólo para encontrar datos concretos, sino también para controlar y/o vigilar automatizadamente el flujo de datos en redes. De esta manera, la presente invención también se puede utilizar en la lucha contra el terrorismo (por ejemplo, la detección precoz de un acto terrorista) o en la lucha contra la delincuencia en Internet (por ejemplo, el racismo, la pedofilia, etc.).

Es importante señalar que la formación de clústeres/agregados según la invención no se refiere a los documentos individuales, tal como en parte sucede con el estado de la técnica (ver, por ejemplo, los documentos WO 03/052627 y US 6711585). Según la invención, se asocian en clústeres la totalidad de los términos que aparecen, a fin de construir con ellos un espacio de contenidos que pueda caracterizar de forma óptima los temas tratados en la colección de documentos. No obstante, según la invención esto sólo es una etapa intermedia para la proyección de los documentos sobre vectores que finalmente se emplean para clasificar los documentos en los mapas de Kohonen. En la presente invención, el fundamento del análisis de textos es la citada base de datos lingüística. La base de datos lingüística puede ser muy grande y abarcar, como en este caso, más de 2,2 millones de entradas en idiomas diferentes (en este caso, por ejemplo, inglés, alemán, francés e italiano). El sistema agrupa palabras y términos compuestos de significado similar en grupos de sinónimos que abarcan varios idiomas, y los enlaza con el árbol taxonómico "universal" (a fin de clasificar el contenido de los grupos de sinónimos). Cuando se analiza una colección de documentos dada, tal como se ha descrito, a partir del contenido efectivo de los documentos en cuestión y de los enlaces y correspondencias almacenados en la base de datos lingüística, se construye en primer lugar un espacio de contenidos 100-dimensional cuyos ejes pueden caracterizar de forma óptima los contenidos presentes en los documentos. Después de una proyección de los documentos sobre el espacio de contenidos construido, los documentos se organizan de modo lógico (en este caso, con mapas de Kohonen) mediante las redes neuronales autoorganizativas, y se dotan de descriptores de forma totalmente automática. La característica especial de la presente invención y de la nueva tecnología es que ya no es necesaria ninguna intervención humana para la clasificación de cualquier colección de documentos: sin la preparación de un vocabulario especial, sin una taxonomía especial, sin tesauros especiales y, sobre todo, sin un costoso adiestramiento de la clasificación de documentos también se resuelve de manera congruente el problema del multilingüismo (una traducción inglesa de un documento alemán recibe la misma clasificación que el documento original). Estas son las consecuencias directas de la referencia a la base de datos lingüística con la taxonomía universal y de la proyección adecuadamente diseñada sobre un espacio de contenidos óptimo. Esto no se ha podido conseguir hasta ahora, ni siquiera de forma aproximada, con ninguno de los sistemas conocidos del estado de la técnica.

Claims

1. Dispositivo de análisis de voz y texto (20) para formar un catálogo de búsqueda y/o clasificación que comprende, como mínimo, una base de datos lingüística (22) para asociar términos lingüísticos a registros de datos, de modo que los datos de voz y/o texto (10) se pueden clasificar y/o seleccionar mediante el dispositivo de análisis de voz y texto según los registros de datos, y en el que los términos lingüísticos comprenden, como mínimo, palabras clave y/o términos de búsqueda, caracterizado porque:

-: la base de datos lingüística (22) comprende nexos de palabras y/o términos compuestos de significado similar y los nexos son asociables a grupos de sinónimos de una tabla de taxonomía (21); porque

-: el dispositivo de análisis de voz y texto (20) comprende una módulo de ponderación (23) para ponderar elementos de la tabla de taxonomía (21) en función de la frecuencia de aparición de cada nexo de la base de datos lingüística (22); porque

-: el dispositivo de análisis de voz y texto (20) comprende un módulo de integración (24), de modo que con el módulo de integración (24) se puede generar una matriz de contenido ponderada multidimensional en base a los aglomerados de elementos de la tabla de taxonomía (21); porque

-: el dispositivo de análisis de voz y texto (20) comprende, como mínimo, un módulo de red neuronal (26) para clasificar y/o seleccionar los datos de voz y/o texto (10) en base a la matriz de contenido, de modo que se pueden determinar, para uno o varios grupos de temas, descriptores de condiciones límite correspondientes al dispositivo de análisis de voz y texto (20).

2. Dispositivo de análisis de voz y texto (20), según la reivindicación 1, caracterizado porque los nexos de la base de datos lingüística son definibles para varios idiomas.

3. Dispositivo de análisis de voz y/o texto (20) para formar un catálogo de búsqueda y/o clasificación que comprende, como mínimo, una base de datos lingüística (22) para asociar términos lingüísticos a registros de datos, de modo que con el dispositivo de análisis de voz y/o texto se pueden clasificar y/o seleccionar los datos de voz y/o texto (10) según los registros de datos y en el que los términos lingüísticos comprenden, como mínimo palabras clave y/o términos de búsqueda, caracterizado porque:

-: el dispositivo de análisis de voz y/o texto (20) comprende una tabla de taxonomía (21) con nudos de taxón variables basada en la base de datos lingüística (22), de modo que uno o varios registros de datos son asociables a un nudo de taxón en la tabla de taxonomía (21) y cada registro de datos comporta un factor de significancia para evaluar los términos en base a, como mínimo, palabras expletivas y/o palabras de enlace y/o palabras clave; porque

-: el dispositivo de análisis de voz y/o texto (20) comprende un módulo de ponderación (23), de modo que a cada nudo de taxón se asocia y se almacena adicionalmente un parámetro de ponderación para determinar las frecuencias de aparición de términos dentro de los datos de voz y/o texto (10) a clasificar y/o seleccionar; porque

-: el dispositivo de análisis de voz y/o texto (20) comprende un módulo de integración (24) para determinar un número predefinible de aglomerados en base a los parámetros de ponderación de los nudos de taxón de la tabla de taxonomía (21), de modo que un aglomerado comporta, como mínimo, un nudo de taxón; y porque

-: el dispositivo de análisis de voz y/o texto (20) comprende, como mínimo, un módulo de red neuronal (26) para clasificar y/o seleccionar los datos de voz y/o texto (10) en base a los aglomerados de la tabla de taxonomía (21).

4. Dispositivo de análisis de voz y/o texto (20), según la reivindicación 3, caracterizada porque el módulo de red neuronal (26) comporta, como mínimo, un mapa de Kohonen autoorganizativo.

5. Dispositivo de análisis de voz y/o texto (20), según una de las reivindicaciones 3 ó 4, caracterizado porque el dispositivo de análisis de voz y/o texto comprende un módulo de entropía (25) para determinar un parámetro de entropía almacenable en un módulo de memoria, en base a la distribución de un registro de datos en los datos de voz y/o texto (10).

6. Dispositivo de análisis de voz y/o texto (20), según una de las reivindicaciones 3 a 5, caracterizado porque la base de datos lingüística (22) comporta registros de datos multilingües.

7. Dispositivo de análisis de voz y/o texto (20), según una de las reivindicaciones 3 a 6, caracterizado porque el dispositivo de análisis de voz y/o texto comprende una tabla hash asociada a la base de datos lingüística (22), de modo que mediante un valor hash se pueden identificar en la tabla hash los registros de datos lingüísticamente enlazados.

8. Dispositivo de análisis de voz y/o texto (20) según una de las reivindicaciones 3 a 7, caracterizado porque los registros de datos se pueden asociar a un idioma mediante un parámetro de idioma y se pueden marcar como sinónimos en la tabla de taxonomía (21).

9. Dispositivo de análisis de voz y/o texto (20), según una de las reivindicaciones 3 a 8, caracterizado porque el parámetro de entropía viene dado por la fórmula:

26

10. Dispositivo de análisis de voz y/o texto (20) según una de las reivindicaciones 3 a 9, caracterizado porque los aglomerados son asociables a una matriz n-dimensional de contenidos de un espacio de contenidos n-dimensional.

11. Dispositivo de análisis de voz y/o texto (20), según la reivindicación 10, caracterizado porque "n" es igual a 100.

12. Dispositivo de análisis de voz y/o texto (20), según una de las reivindicaciones 3 a 11, caracterizado porque el dispositivo de análisis de voz y/o texto comprende descriptores definibles mediante los cuales se pueden determinar las correspondientes condiciones límite para un grupo temático.

13. Dispositivo de análisis de voz y/o texto (20), según una de las reivindicaciones 3 a 12, caracterizado porque la Datenbank comporta una base de datos lingüística (22) universal e independiente de temas, y la tabla de taxonomía (21) se puede generar de modo universal e independiente de temas.

14. Procedimiento automatizado de análisis de voz y texto para formar un catálogo de búsqueda y/o clasificación, en el que se adquieren registros de datos mediante una base de datos lingüística (22) y se clasifican y/o seleccionan datos de voz y/o texto (10) según los registros de datos, caracterizado porque:

- los registros de datos de la base de datos lingüística (22) se almacenan asociados a un nudo de taxón de la tabla de taxonomía (21), de modo que cada registro de datos comporta un factor de significancia variable para evaluar los términos en base a, como mínimo, palabras expletivas y/o palabras de enlace y/o palabras clave; porque

- los datos de voz y/o texto (10) se adquieren en base a la tabla de taxonomía (21), de modo que la frecuencia de cada registro de datos en los datos de voz y/o texto (10) se determina mediante un módulo de ponderación (23) y se asocia a un parámetro de ponderación del nudo de taxón; porque

- mediante un módulo de integración (24) se determina un número definible de aglomerados en la tabla de taxonomía (21) en función de los parámetros de ponderación de uno o varios nudos de taxón; porque

- mediante un módulo de red neuronal (26) se clasifican y/o seleccionan los datos de voz y/o texto (10) en base a los aglomerados de la tabla de taxonomía (21).

15. Procedimiento automatizado de análisis de voz y texto, según la reivindicación 14, caracterizado porque el módulo de red neuronal (26) comprende, como mínimo, un mapa de Kohonen autoorganizativo.

16. Procedimiento automatizado de análisis de voz y texto, según una de las reivindicaciones 14 ó 15, caracterizado porque mediante un módulo de entropías (25) se determina un factor de entropía en base a la distribución de registros de datos en los datos de voz y/o texto (10).

17. Procedimiento automatizado de análisis de voz y texto, según una de las reivindicaciones 14 a 16, caracterizado porque la base de datos lingüística (22) comprende registros multilingües de datos.

18. Procedimiento automatizado de análisis de voz y texto, según una de las reivindicaciones 14 a 17, caracterizado porque se almacena una tabla hash asociada a la base de datos lingüística (22), de modo que la tabla hash comporta, mediante un valor hash, una identificación de registros de datos enlazados.

19. Procedimiento automatizado de análisis de voz y texto, según una de las reivindicaciones 14 a 18, caracterizado porque los registros de datos se pueden asociar a un idioma mediante un parámetro de idioma y se pueden marcar como sinónimos en la tabla de taxonomía (21).

20. Procedimiento automatizado de análisis de voz y texto, según una de las reivindicaciones 14 a 19, caracterizado porque el factor de entropía viene dado por la fórmula:

\vskip1.000000\baselineskip

27

21. Procedimiento automatizado de análisis de voz y texto, según una de las reivindicaciones 14 a 20, caracterizado porque los aglomerados conforman un espacio de contenido n-dimensional.

22. Procedimiento automatizado de análisis de voz y texto, según la reivindicación 21, caracterizado porque "n" es igual a 100.

23. Procedimiento automatizado de análisis de voz y texto, según una de las reivindicaciones 14 a 22, caracterizado porque mediante descriptores definibles se pueden determinar las condiciones límite para un grupo temático.

24. Procedimiento automatizado de análisis de voz y texto, según una de las reivindicaciones 14 a 23, caracterizado porque los nudos de taxón de la tabla de taxonomía (21) se generan en base a una base de datos lingüística universal, independiente de temas, de modo que la Datenbank (22) comprende, como mínimo, la base de datos lingüística universal independiente de temas.

25. Producto de programa de ordenador, el cual comprende un soporte legible por ordenador que contiene medios de programa de ordenador para controlar uno o varios procesadores de un sistema informático para el análisis automatizado de voz y texto mediante la formación de un catálogo de búsqueda y/o clasificación, de modo que en base a una base de datos lingüística (22) se registran registros de datos y se clasifican y/o seleccionan datos de voz y/o texto (10) en función de los registros de datos, caracterizado porque:

- mediante el producto de programa de ordenador los registros de datos de la base de datos lingüística (22) son almacenables y asignables a un nudo de taxón de una tabla de taxonomía (21,...,25), de modo que cada registro de datos comprende un factor de significancia variable para evaluar los términos en base a, como mínimo, palabras expletivas y/o palabras de enlace y/o palabras clave; porque

- mediante el producto de programa de ordenador se pueden adquirir los datos de voz y/o texto (10) en base a la tabla de taxonomía (21), de modo que la frecuencia de cada registro de datos en los datos de voz y/o texto (10) determina un parámetro de ponderación de los nudos de taxón; porque

- mediante el producto de programa de ordenador y según el parámetro de ponderación de uno o varios nudos de taxón se puede determinar un número definible de aglomerados en la tabla de taxonomía (21); y porque

- mediante el producto de programa de ordenador se puede generar una red neuronal, con la que se pueden clasificar y/o seleccionar los datos de voz y/o texto (10) en base a los aglomerados de la tabla de taxonomía (21) los datos de lenguaje y/o texto (10).

26. Producto de programa de ordenador que se puede cargar en la memoria interna de un ordenador digital y que comporta secciones de código de software con los que se pueden ejecutar las etapas, según una de las reivindicaciones 14 a 24, cuando el producto funciona en un ordenador, de modo que las redes neuronales se pueden generar con software y/o hardware.