ES2300046T3 - Dispositivo de analisis de voz y texto, y procedimiento correspondiente. - Google Patents
Dispositivo de analisis de voz y texto, y procedimiento correspondiente. Download PDFInfo
- Publication number
- ES2300046T3 ES2300046T3 ES05777992T ES05777992T ES2300046T3 ES 2300046 T3 ES2300046 T3 ES 2300046T3 ES 05777992 T ES05777992 T ES 05777992T ES 05777992 T ES05777992 T ES 05777992T ES 2300046 T3 ES2300046 T3 ES 2300046T3
- Authority
- ES
- Spain
- Prior art keywords
- voice
- text
- text analysis
- data
- analysis device
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Creation or modification of classes or clusters
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
- Exchange Systems With Centralized Control (AREA)
Abstract
Dispositivo de análisis de voz y texto (20) para formar un catálogo de búsqueda y/o clasificación que comprende, como mínimo, una base de datos lingüística (22) para asociar términos lingüísticos a registros de datos, de modo que los datos de voz y/o texto (10) se pueden clasificar y/o seleccionar mediante el dispositivo de análisis de voz y texto según los registros de datos, y en el que los términos lingüísticos comprenden, como mínimo, palabras clave y/o términos de búsqueda, caracterizado porque: - la base de datos lingüística (22) comprende nexos de palabras y/o términos compuestos de significado similar y los nexos son asociables a grupos de sinónimos de una tabla de taxonomía (21); porque - el dispositivo de análisis de voz y texto (20) comprende una módulo de ponderación (23) para ponderar elementos de la tabla de taxonomía (21) en función de la frecuencia de aparición de cada nexo de la base de datos lingüística (22); porque - el dispositivo de análisis de voz y texto (20) comprende un módulo de integración (24), de modo que con el módulo de integración (24) se puede generar una matriz de contenido ponderada multidimensional en base a los aglomerados de elementos de la tabla de taxonomía (21); porque - el dispositivo de análisis de voz y texto (20) comprende, como mínimo, un módulo de red neuronal (26) para clasificar y/o seleccionar los datos de voz y/o texto (10) en base a la matriz de contenido, de modo que se pueden determinar, para uno o varios grupos de temas, descriptores de condiciones límite correspondientes al dispositivo de análisis de voz y texto (20).
Description
Dispositivo de análisis de voz y texto, y
procedimiento correspondiente.
La presente invención se refiere a un sistema y
un procedimiento para el análisis automatizado de voz y texto
mediante la formación de un catálogo de búsqueda y/o clasificación,
en el que se adquieren los registros de datos mediante una base de
datos lingüística y se clasifican y/o seleccionan los datos de voz
y/o texto según los registros de datos (palabras clave y/o términos
de búsqueda). La invención se refiere, en especial, a un producto
de programa de ordenador para la realización de este
procedimiento.
En los últimos años ha aumentado
exponencialmente la importancia de las grandes bases de datos,
especialmente de las bases de datos descentralizadas entrelazadas,
por ejemplo, a través de redes tales como la principal red mundial
de Internet. Mediante dichas bases de datos y redes se ofrecen cada
vez más mercancías y servicios. Esto ya se observa por la
omnipresencia actual de Internet. En especial debido a la
disponibilidad y cantidad de tales datos, han adquirido enorme
importancia, por ejemplo, en Internet las herramientas para buscar y
encontrar documentos pertinentes y/o para clasificar los documentos
encontrados. Son conocidas las herramientas para estructuras de
bases de datos descentralizadas y bases de datos en general. En la
red Internet se habla con frecuencia de los "motores de
búsqueda" ("search engines"), tales como los conocidos
Google^{TM}, Alta Vista^{TM} o las tablas de enlaces
estructuradas preordenadas tales como, por ejemplo,
Yahoo^{TM}.
El problema de la búsqueda y/o catalogación del
contenido de los documentos a procesar en una o varias bases de
datos comprende, entre otras cosas, las siguientes tareas: (1)
indexado o catalogación del contenido de los documentos a procesar
("Content Synthesis" ("síntesis de contenido")); (2)
realización de la consulta de búsqueda mediante los documentos
indexados y/o catalogados ("Content Retrieval" ("recuperación
de contenido")). Normalmente, los datos a indexar y/o catalogar
comprenden documentos no estructurados, por ejemplo, texto,
descripciones y enlaces. En las bases de datos más complejas los
documentos también pueden contener datos multimedia, por ejemplo,
imágenes, datos de sonido/voz, datos vídeo, etc. En Internet pueden
ser, por ejemplo, datos que se pueden descargar de un sitio web
usando enlaces ("Links").
La memoria de patente US6714939 describe un
procedimiento y sistema de este tipo, destinado a convertir texto
puro o documentos de texto en datos estructurados. El sistema del
estado de la técnica se puede utilizar, en especial, para consultar
y/o encontrar los datos de una base de datos.
Las redes neuronales son conocidas en el estado
de la técnica y se utilizan, por ejemplo, para resolver problemas
de optimización, reconocimiento de imágenes ("Pattern
recogition" ("reconocimiento de formas")), en la
inteligencia artificial, etc. De forma correspondiente a las redes
de nervios biológicas, una red neuronal consta de múltiples nudos
de red, las llamadas neuronas, que están conectadas entre sí
mediante conexiones ponderadas (sinapsis). Las neuronas, están
organizadas y conectadas entre sí en capas de red ("Layers").
Cada neurona es activada en función de sus señales de entrada y
genera una correspondiente señal de salida. La activación de una
neurona se realiza con un factor de ponderación individual mediante
la sumatoria de las señales de entrada. Tales redes neuronales
tienen una capacidad de aprendizaje, modificando sistemáticamente
los factores de ponderación en función de los ejemplos de valores
de entrada y salida predeterminados hasta que la red neuronal,
dentro de una zona de error predeterminada predecible, muestre un
comportamiento deseado, por ejemplo, la predicción de valores de
salida para futuros valores de entrada. De esta forma, las redes
neuronales poseen una capacidad de adaptación para aprender y
almacenar conocimientos, y capacidades asociativas para comparar
informaciones nuevas con conocimientos almacenados. Las neuronas
(nudos de red) pueden adoptar un estado de reposo o un estado de
excitación. Cada neurona tiene varias entradas y una sola salida,
que está conectada a las entradas de otras neuronas de la capa de
red subsiguiente o bien, en el caso de un nudo de salida, representa
un correspondiente valor de salida. Una neurona pasa al estado
excitado cuando se excita un número suficiente de entradas de la
neurona hasta superar un determinado valor umbral, es decir, cuando
la sumatoria de las entradas alcanza un determinado valor umbral.
Las ponderaciones de las entradas de la neurona y el valor umbral de
la neurona almacenan el conocimiento mediante adaptación. Con el
proceso de aprendizaje se adiestran las ponderaciones de una red
neuronal (ver, por ejemplo, G. Cybenko, "Approximation by
Superpositions of a sigmoidal function" ("Aproximación por
superposición de una función sigmoidal"), Math. Control, Sig.
Syst., 2, 1989, pp 303-314; M.T. Hagan, M.B.
Menjaj, "Training Feedforward Networks with the Marquardt
Algorithm" ("Adiestramiento de redes unidireccionales con el
algoritmo de Marquardt"), IEEE Transactions on Neural Networks,
Vol. 5, Nr. 6, pp 989-993, November 1994; K.
Hornik, M. Stinchcombe, H. White, "Multilayer Feedforward Networks
are universal Approximators" ("Las redes unidireccionales
multicapa son aproximadores universales"), Neural Networks, 2,
1989, pp 359-366 etc.).
Contrariamente a las "Supervised Learning
Neural Nets" ("Redes neuronales de aprendizaje
supervisado"), en el proceso de aprendizaje de las
"Unsupervised Learning Neural Nets" ("Redes neuronales de
aprendizaje no supervisado") no se da a la red neuronal ningún
esquema de salida deseado. En este caso, es la red misma la que
intenta llegar a una representación lo más razonable posible de los
datos de entrada. Por ejemplo, en el estado de la técnica, los
llamados "Topological Feature Maps" ("Mapas topológicos de
rasgos") (TFM) tales como los mapas de Kohonen. Con los
"TFM", la red intenta distribuir los datos de entrada del modo
más razonable posible entre varias clases predeterminadas. Así
pues, se utiliza como clasificador. Con los clasificadores se
intenta subdividir en un número de subgrupos un espacio de
propiedades, es decir, un conjunto de datos de entrada, de la
manera más razonable posible. En la mayoría de los casos, el número
de subgrupos o clases está prefijado. Para la palabra
"razonable" se pueden aplicar todas las interpretaciones que se
deseen. Una interpretación habitual para un clasificador sería, por
ejemplo: "Conforma las clases de manera que la suma de las
distancias entre los vectores de propiedades y los puntos centrales
de las clases a las que se asignan sea la menor posible." Así
pues, se introduce un criterio a maximizar o minimizar. La tarea del
algoritmo de clasificación es realizar la clasificación de los
datos de entrada según este criterio en el menor tiempo
posible.
Los "TFM", por ejemplo, los mapas de
Kohonen, permiten representar un espacio de propiedades de muchas
dimensiones como espacio de pocas dimensiones conservando sus
características más importantes. Se diferencian de otras clases de
redes neuronales porque en la fase de aprendizaje de un esquema de
entrada no se predetermina ningún esquema de salida explícito o
implícito. Durante su fase de aprendizaje, los "TFM" adaptan
los atributos del espacio de propiedades utilizado. La relación
entre un clasificador tradicional y una red neuronal
autoorganizativa o un mapa topológico de rasgos "TFM" radica
en que el esquema de salida de un "TFM" generalmente consta de
una sola neurona excitada. El esquema de entrada se asocia a la
clase de neurona de salida excitada. En mapas "TFM" en los que
pueden estar excitadas varias neuronas de la capa de salida, por lo
general sencillamente se valora como clase la neurona que tiene el
mayor nivel de excitación, y se asigna a ella el esquema de salida.
De esta manera, el modelo continuo de un clasificador en el que una
propiedad se asocia a una clase en determinados grados se convierte
en un modelo
discreto.
discreto.
También forma parte del estado de la técnica el
empleo de mapas de Kohonen. Por ejemplo, una de esas aplicaciones
se describe en el documento XP002302269 de Farkas J. "Using
Kohonen Maps to Determine Document Similaritiy" ("Uso de mapas
de Kohonen para determinar la similitud de documentos"). En
primer lugar, se prepara para un problema planteado un vocabulario
específico del área en cuestión ("palabras clave") y luego se
diseña un tesauro específico para el problema (según ISO 2788). Sin
embargo, este sistema conocido tiene el inconveniente de que
solamente se pueden extraer de los documentos a clasificar los
términos que también aparecen en el tesauro diseñado. Especialmente
por este motivo, este sistema no permite automatizar la solución de
problemas. A partir de los extractos citados se forman los vectores
que finalmente entran en un mapa de Kohonen con un tamaño
prefijado. Como medida de similitud se emplea la clásica métrica
euclidiana. En otro sistema del estado de la técnica (Iritano S. y
M. Ruffolo: "Managing the knowledge contained in electronic
documents: a clustering method for text miniming" ("Gestión
del conocimiento contenido en documentos electrónicos: método de
formación de clústeres para minería de textos"), XP010558781),
se seleccionan palabras de los documentos a analizar, se reducen a
sus lemas (análisis lexicográfico) y se determinan las frecuencias
por documento de las diferentes palabras clave. Se pueden omitir
palabras predeterminadas que carecen de interés. Las palabras clave
(que en la publicación se designan como sinónimos) se indexan para
la búsqueda y por último se emplea un algoritmo especial de
"clústering" que utiliza el solapamiento de las palabras en los
diversos documentos como medida de la similitud. Cuando el sistema
se limita a documentos en inglés, también es posible realizar una
interpretación semántica mediante la base de datos léxica
"WordNet" de la Universidad de Princeton. Uno de los
inconvenientes de este sistema conocido es que el procedimiento
sólo suministra clústeres abstractos que no permiten una
interpretación semántica sin una oportuna intervención humana, es
decir, que tampoco este sistema del estado de la técnica permite
una verdadera automatización del procedimiento. Por otra parte, la
limitación a la "WordNet" de la Universidad de Princeton como
base de conocimiento es una restricción que, por ejemplo, no permite
una aplicación para varios idiomas o una taxonomía
universal.
universal.
Otro sistema del estado de la técnica que da a
conocer el documento WO 03/052627 A1 de Semper Peter Paul y otros,
"Information Resource Taxonomy" ("Taxonomía de recursos de
información") describe un procedimiento que determina la
frecuencia de aparición de palabras en documentos y forma clústeres
según la especificación "TACT" (PCT/AU01/00198). En una etapa
previa se determinan para la reducción de ruido ("noise
reduction"), locuciones frecuentes y se suprimen cuando su
frecuencia supera un límite determinado. Sin embargo, la memoria de
patente se refiere básicamente a un procedimiento para la generación
automática de jerarquías de clústeres, es decir, clústeres
jerárquicamente estructurados de documentos. El término "resource
taxonomy" ("taxonomía de recursos") utilizado en esta
patente se refiere a la ordenación de los clústeres de documento
(comparable a una estructura jerárquica de directorios para el
archivado lógico de documentos). En el documento WO 03/052627 A1 se
designa como "Taxonomía" una estructura clúster de directorios.
En cambio, en el presente documento se designa como
"taxonomía", según la invención, la clasificación de las
palabras y términos según su contenido. Por último, la memoria de
patente US 6711585 B1 "System and Method for Implementing a
Knowledge Management System" ("Sistema y método para aplicar
un sistema de gestión del conocimiento") del inventor Copperman
Max y otros da a conocer un procedimiento similar al del documento
WO03/052627A1, con el diseño de una jerarquía de clústeres y la
asociación de documentos y consulta a un clúster especial. Los
documentos individuales se estructuran formalmente como
"Knowledge Container" ("contenedor de conocimiento")
(constituido por metadatos, marcas de taxonomía, contenido marcado,
contenido original y enlaces). El inconveniente de este sistema
conocido es, entre otras cosas, que la formación de clústeres se
refiere a documentos individuales, por lo que no es posible
realizar una verdadera adquisición global de los términos presentes
en los documentos. Con ello, se impide o se obstaculiza
considerablemente un procesado ulterior. En especial, esto impide la
adecuada automatización del
procedimiento.
procedimiento.
El objeto de la presente invención es proponer
un nuevo sistema y procedimiento automatizado para formar un
catálogo de búsqueda y/o clasificación, que no presente los
inconvenientes mencionados del estado de la técnica. En especial,
se propone un procedimiento automatizado sencillo y racional para
clasificar y/o seleccionar, y/o indexar consultas de búsqueda,
múltiples datos de voz y/o texto, por ejemplo, almacenados de forma
accesible en una o varias bases de datos. La invención debe generar
un procedimiento de indexado para una búsqueda temática eficiente y
fiable, es decir, para encontrar documentos lo más similares posible
a una consulta dada constituida por un documento completo de texto
o bien por palabras clave individuales. Además, la invención debe
generar una medida claramente definida para la evaluación objetiva
de la similitud entre dos durante su comparación y para la
clasificación jerárquica de los documentos. Además, la invención
debe generar un procedimiento para la identificación de clústeres
de documentos conexos, es decir, de documentos casi idénticos
(distintas versiones del mismo documento, con pequeñas
modificaciones).
Según la presente invención, este objetivo se
consigue, en especial, gracias a los elementos de las
reivindicaciones independientes. De las reivindicaciones
dependientes y de la descripción se desprenden otras formas de
realización ventajosas.
La invención consigue estos objetivos, en
especial, porque mediante un dispositivo de análisis de voz y/o
texto se forma un catálogo de búsqueda y/o clasificación que
comprende, como mínimo, una base de datos lingüística para asociar
términos lingüísticos a registros de datos, de modo que los términos
lingüísticos comprenden, como mínimo, palabras clave y/o términos
de búsqueda, y los datos de voz y/o texto son clasificables y/o
seleccionables en función de los registros de datos; porque el
dispositivo de análisis de voz y/o texto comprende una tabla de
taxonomía con nudos de taxón variables basados en la base de datos
lingüística, de modo que se pueden asociar uno o varios registros
de datos a un nudo de taxón de la tabla de taxonomía, y de modo que
cada registro de datos comprende un factor de significación
variable para evaluar los términos en base a, como mínimo, palabras
expletivas y/o palabras de enlace y/o palabras clave; porque cada
nudo de taxón comprende adicionalmente un parámetro de ponderación
para adquirir las frecuencias de aparición de términos en los datos
de voz y/o texto a clasificar y/o seleccionar; porque el
dispositivo de análisis de voz y/o texto comprende un módulo de
integración para determinar un número predefinible de aglomerados
en base a los parámetro de ponderación de los nudos de taxón de la
tabla de taxonomía, de modo que un aglomerado comprende, como
mínimo, un nudo de taxón; y porque el dispositivo de análisis de
voz y/o texto comprende, como mínimo, un módulo de red neuronal para
clasificar y/o seleccionar los datos de voz y/o texto en base a los
aglomerados de la tabla de taxonomía. Por ejemplo, la base de datos
lingüística puede comprender registros de datos multilingües. Esta
variante de realización tiene, entre otras, la ventaja de que se
pueden agrupar de forma lógica la colección de documentos o los
datos en general en bases de datos, en especial, en bases de datos
descentralizadas, sin intervención humana (por ejemplo, sin el
adiestramiento de una red, sin la preparación de una taxonomía
específica para el contenido, etc.). Además, se puede crear una
visión general del contenido temático de una colección de documentos
mediante un mapa topológico. Así pues, se puede considerar que este
dispositivo y procedimiento automatizado son un avance decisivo de
los procedimientos de "table of content" ("índices de
contenido"). En especial, la invención crea una herramienta muy
fiable y eficiente para las búsquedas temáticas (reconocimiento de
documentos en función de una entrada de búsqueda en lenguaje
natural), adicional a la búsqueda convencional según el estado de
la técnica mediante una combinación de términos de búsqueda. En
especial, los resultados de la búsqueda se pueden representar
visualmente de forma muy sencilla mediante la proyección sobre el
mapa topológico y/o geográfico ("Map") en forma de un llamado
"heat map" ("mapa térmico"), contrariamente a los formatos
de listas convencionales no clasificados por categorías. La
invención también genera una medida bien controlable para comparar
documentos y/o evaluar su similitud. Además, la invención genera un
auténtico sistema multilingüe de gestión del conocimiento con
funciones de búsqueda que abarcan varios idiomas. Esto no ha sido
posible hasta ahora con el estado de la técnica. Por último, la
invención también permite la generación automatizada de
"descriptores", los cuales reproducen la característica de
contenido de un documento (también con los atributos
trans-idiomáticos). De este modo, la invención crea
un procedimiento de indexado para búsquedas temáticas eficientes y
fiables, es decir, para encontrar documentos lo más similares
posible a la consulta realizada mediante un documento completo de
texto o con palabras clave individuales. La invención también genera
una medida claramente definida para la evaluación objetiva de la
similitud entre dos documentos durante su comparación y durante la
clasificación jerárquica de los documentos. Adicionalmente, la
invención crea un procedimiento para la identificación de clústeres
de documentos conexos, es decir, de documentos casi idénticos
(versiones diferentes de un mismo documento, con pequeñas
modificaciones).
modificaciones).
Una variante de realización comprende, como
mínimo una base de datos lingüística para asociar términos
lingüísticos a registros de datos, de modo que mediante el
dispositivo de análisis de voz y/o texto se pueden clasificar y/o
seleccionar los datos de voz y/o texto en función de los registros
de datos, de modo que los términos lingüísticos comprenden, como
mínimo, palabras clave y/o términos de búsqueda, la base de datos
lingüística comprende nexos de palabras y/o términos compuestos de
significado similar, siendo dichos nexos asociables a grupos de
sinónimos de una tabla de taxonomía, de modo que el dispositivo de
análisis de voz y/o texto comporta un módulo de ponderación para
ponderar elementos de la tabla de taxonomía en función de la
frecuencia de aparición de cada nexo de la base de datos
lingüística, y de modo que el dispositivo de análisis de voz y/o
texto comprende un módulo de integración con el cual se puede
generar una matriz de contenido ponderada multidimensional en base
a los aglomerados de elementos de la tabla de taxonomía, y de modo
que el dispositivo de análisis de voz y/o texto comprende, como
mínimo, un módulo de red neuronal para clasificar y/o seleccionar
los datos de voz y/o texto en base a la matriz de contenidos, de
modo que mediante descriptores definibles del dispositivo de
análisis de voz y/o texto se puedan determinar las correspondientes
condiciones límite para uno o varios grupos temáticos. Esta
variante de realización tiene, entre otras, las mismas ventajas que
la anterior. En especial, igual que en el caso anterior, por
ejemplo, ya no es necesaria la intervención humana previa para la
clasificación de cualquier colección de documentos; no es necesario
preparar un vocabulario especial, una taxonomía especial, un
tesauro especial y, sobre todo, no requiere un costoso
adiestramiento para la clasificación de documentos. Además, el
problema del multilingüismo se resuelve de forma coherente (la
traducción inglesa de un documento alemán recibe la misma
clasificación que el documento original alemán). Estas son las
consecuencias directas de la referencia a la base de datos
lingüística con la taxonomía universal y la proyección de diseño
oportuno sobre un espacio de contenidos óptimo. Esto no se ha
conseguido hasta ahora, ni siquiera aproximadamente, con los
sistemas del estado de la técnica.
En una variante de realización, el módulo de red
neuronal comprende, como mínimo, uno o varios mapas de Kohonen
autoorganizativos. Esta variante de realización tiene, entre otras,
las mismas ventajas que la variante de la realización anterior.
Además la utilización de técnicas de redes autoorganizativas, por
ejemplo, "SOM" o mapas de Kohonen, permite una automatización
adicional del procedimiento.
En otra variante de realización, el dispositivo
de análisis de voz y/o texto comprende un módulo de entropía para
determinar un parámetro de entropía almacenable en un módulo de
memoria en función de la distribución de un registro de datos en
los datos de voz y/o texto. El parámetro de entropía puede ser el
resultado de la fórmula: Entropía_{DR} =
In(freqsum_{DR}) - \sum F_{DR}
In(F_{DR})/freqsum_{DR}. Esta variante de realización
tiene, entre otras, la ventaja de que se puede determinar
adicionalmente un parámetro de relevancia. Un término que está
ampliamente difundido en la totalidad de los datos de voz y/o texto
o en todos los documentos tiene una entropía elevada y contribuirá
poco a la diferenciación de los documentos. Por ello, la entropía
puede contribuir considerablemente a la eficiencia del dispositivo y
del procedimiento según la invención.
En otra variante de realización, el dispositivo
comprende una tabla hash asociada a la base de datos lingüística,
de modo que mediante un valor hash se pueden identificar en la tabla
hash los registros de datos lingüísticamente enlazados. Esta
variante de realización tiene, entre otras, la ventaja de que se
pueden encontrar mucho más rápidamente y de modo más eficiente los
registros de datos lingüísticamente enlazados, tales como
"common" ("común"), "sense" ("sentido") y
"common sense" ("sentido común").
En otra variante de realización, se pueden
asociar, por ejemplo, los registros de datos de un idioma mediante
un parámetro de idioma, y marcarlos como sinónimos en la tabla de
taxonomía. Esta variante de realización tiene, entre otras, la
ventaja de que, mediante el dispositivo de análisis de voz y/o texto
también se pueden clasificar y/o seleccionar datos de texto o voz
multilingües.
En una forma de realización, los aglomerados se
pueden asociar a una matriz de contenidos
n-dimensional de un espacio de contenidos
n-dimensional. Por ejemplo, "n" puede ser igual
a 100. No obstante, se señala que cualquier otro número natural
puede ser adecuado para determinadas aplicaciones. Esta variante de
realización tiene, entre otras, la ventaja de que es justamente lo
que permite la asociación eficiente a las redes autoorganizativas,
dado que, en otro caso, el espacio de contenidos posee demasiados
grados de libertad como para poder seguir dando resultados
significativos, o bien demasiado pocos grados de libertad, por lo
que también deja de dar resultados
significativos.
significativos.
En una variante de realización, el dispositivo
de análisis de voz y/o texto comprende descriptores mediante los
cuales se pueden determinar condiciones límite para un grupo
temático que se corresponden con descriptores definibles. Esta
variante de realización tiene, entre otras, la ventaja de que los
documentos se llevan al área global correcta mediante la técnica
"SOM" ("Self-organizing Maps" ("mapas
autoorganizativos")).
En otra variante de realización, los nudos de
taxón de la tabla de taxonomía se generan en función de una base de
datos lingüística universal temáticamente independiente, de forma
que la base de datos abarca la base de datos lingüística universal
temáticamente independiente. Esta variante de realización tiene,
entre otras, la ventaja de que por primera vez se puede realizar de
forma totalmente automatizada la catalogación y/o el indexado sobre
la base de una taxonomía no específica de temas y que por ello no es
necesario predefinir.
Se señala que la presente invención, aparte del
procedimiento según la invención, también se refiere a un
dispositivo para la realización de dicho procedimiento. Además, la
invención no se limita al sistema y al procedimiento citado, sino
que igualmente se refiere a un producto de programa de ordenador
para la realización del procedimiento según la invención.
Se describen a continuación variantes de
realización de la presente invención, sobre la base de ejemplos.
Los ejemplos de realización se ilustran mediante las siguientes
figuras adjuntas:
- la figura 1 muestra un diagrama de bloques que
ilustra esquemáticamente el procedimiento según la invención.
- la figura 2 también muestra un diagrama de
bloques que ilustra la utilización de un dispositivo, según la
invención, en una red de bases de datos descentralizadas y/o fuentes
de datos para la adquisición temática y/o catalogación y/o control
del flujo de datos en la red.
- la figura 3 muestra un diagrama de bloques que
ilustra la estructura de una tabla de taxonomía (21).
\newpage
- la figura 4 muestra un diagrama de bloques que
ilustra esquemáticamente la formación de clústeres de aglomeración
en la tabla de taxonomía.
- la figura 5 muestra un diagrama de bloques que
ilustra esquemáticamente un ejemplo de la combinación de clústeres
de aglomeración en áreas temáticas.
- la figura 6 muestra un diagrama de bloques que
ilustra esquemáticamente un mapa de información o un mapa de
Kohonen. Mediante la técnica "SOM", los documentos a analizar,
es decir, la totalidad de los datos de texto y voz (10), se agrupan
con condiciones límite en un conjunto de neuronas de 2 dimensiones
(mapa de información), mediante el módulo de red neuronal (26).
- la figura 7 muestra un diagrama de flujo que
ilustra las etapas de procedimiento del análisis inicial de
colecciones de documentos, en forma de etapa de "Text Mining"
("minería de texto").
- la figura 8 muestra un esquema para la
generación de clústeres en una neurona. "DocEps" corresponde a
una tolerancia determinable para la distancia máxima entre miembros
de un clúster.
Las figuras 1 a 6 ilustran esquemáticamente una
arquitectura que se puede utilizar para realizar la invención. En
este ejemplo de realización, el dispositivo de análisis de voz y/o
texto para la formación de un catálogo de búsqueda y/o
clasificación comprende, como mínimo, una base de datos lingüística
(22) para asociar términos lingüísticos a registros de datos. Por
ejemplo, la base de datos lingüística (22) también puede comprender
registros de datos. Los registros de datos pueden ser asociables a
un idioma mediante un parámetro de idioma y, por ejemplo, ser
marcables como sinónimos en la tabla de taxonomía (21). Por ejemplo,
la base de datos lingüística (22) puede estar asociada a una tabla
hash, de modo que los registros de datos lingüísticamente enlazados
pueden ser identificables en la tabla hash mediante un valor hash.
Mediante el dispositivo de análisis de voz y texto, y los datos de
voz y/o texto (10) correspondientes a los registros de datos son
clasificables y/o seleccionables. Los términos lingüísticos
comprenden, como mínimo, palabras clave y/o términos de búsqueda.
Es importante señalar que los datos de voz y/o texto también pueden
comprender datos de tipo muy general tales como datos multimedia,
es decir, entre otros, datos digitales tales como textos, gráficos,
imágenes, mapas, animaciones, imágenes móviles, vídeo, de formato
"Quicktime", grabaciones de sonido, programas (software),
datos que acompañan programas e hiperenlaces o enlaces a datos
multimedia. Entre ellos también están, por ejemplo, los estándares
MPx (MP3) o MPEGx (MPEG4 o 7) que define el "Moving Picture
Experts Group" ("Grupo de Expertos de Imágenes en
Movimiento").
El dispositivo de análisis de voz y/o texto
comprende una tabla de taxonomía (21) con nudos de taxón variables.
Se pueden asociar uno o varios registros de datos a un nudo de taxón
de la tabla de taxonomía (21). Cada registro de datos comprende un
factor de significancia variable para evaluar los términos en base
a, como mínimo, palabras expletivas y/o palabras de enlace y/o
palabras clave. El dispositivo de análisis de voz y/o texto
comprende un módulo de ponderación (23). Para cada nudo de taxón
existe adicionalmente un parámetro de ponderación para adquirir las
frecuencias de aparición de los términos contenidos en los datos de
voz y/o texto (10) a clasificar y/o seleccionar. El dispositivo de
análisis de voz y/o texto comprende un módulo de integración (24)
para determinar un número predefinible de aglomerados en base a los
parámetros de ponderación de los nudos de taxón de la tabla de
taxonomía (21). Un aglomerado comprende, como mínimo, un nudo de
taxón. Por ejemplo, los aglomerados pueden formar un espacio de
contenidos n-dimensional. Como ejemplo de
realización se puede elegir, por ejemplo, "n" igual a 100. El
dispositivo de análisis de voz y/o texto comprende, como mínimo, un
módulo de red neuronal (26) para clasificar y/o seleccionar los
datos de voz y/o texto (10) en base a los aglomerados de la tabla
de taxonomía (21). Por ejemplo, el módulo de red neuronal (26) puede
comportar, como mínimo, un "Topological Feature Map" ("mapa
topológico de rasgos") (TFM), por ejemplo, un mapa de Kohonen
autoorganizativo. Por ejemplo, mediante descriptores definibles se
pueden determinar las correspondientes condiciones límite para un
grupo
temático.
temático.
El dispositivo de análisis de voz y/o texto
puede comportar adicionalmente, por ejemplo, un módulo de entropía
(25) para determinar un parámetro de entropía almacenable en un
módulo de memoria, basado en la distribución de los datos de voz
y/o texto (10) de un registro de datos. Por ejemplo, el módulo de
entropía (25) se puede realizar con software o con hardware. Por
ejemplo, el parámetro de entropía puede ser:
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Los resultados, es decir, la información
producida, se pueden representar, por ejemplo para un usuario, en
una unidad de salida (28) y también, por ejemplo, mediante una red
(40), (41), (42).
Para las funciones de análisis y búsqueda, se
pueden dividir los datos de texto o voz a analizar tales como, por
ejemplo, un documento de sólo texto, en los siguientes
componentes:
a) Un vector n-dimensional para
caracterizar el contenido temático del documento. Para el valor
"n" se puede elegir, por ejemplo, n = 100;
b) "m" descriptores, los cuales son
característicos del documento y constituyen condiciones límite para
la optimización. El número de descriptores puede ser, por ejemplo,
m = 20;
c) Un conjunto de metadatos que se pueden
extraer automáticamente del documento, es decir, por ejemplo, el
título del documento, el autor, la fecha de creación del documento,
el lugar o la dirección del documento, así como una URL ("Unified
Resource Location" ("localizador uniforme de recursos")), el
formato de fichero PDF ("Portable Document Format" ("formato
de documento portátil")), el formato Microsoft Word, HTML
("Hyper Text Markup Language" ("lenguaje de etiquetas de
hipertexto")), HDML ("Handheld Device Markup Language"
("lenguaje de marcas para dispositivos manuales")),WML
("Wireless Markup Language" ("lenguaje de marcas
inalámbrico")), VRML ("Virtual Reality Modeling Language"
("lenguaje para modelado de realidad virtual" XML
("Extensible Markup Language" ("lenguaje de marcas
extensible")), JPEG ("Joint Photographic Experts Group"
("grupo conjunto de expertos en fotografía")), MPEG ("Moving
Picture Experts Group" ("grupo de expertos de imágenes en
movimiento")), el número de palabras y/o términos, el número de
números enteros y/o racionales, el idioma de la mayoría de los
términos que contiene el documento, las reglas o características
adicionales, etc.
Los ejes del espacio de contenidos
n-dimensionales dependen de la composición temática
y/o las correlaciones internas de la totalidad de los datos de voz
y/o texto (10) a analizar. Los ejes pueden estar razonablemente
diseñados de forma que reproduzcan del mejor modo posible las áreas
temáticas relevantes de los datos de voz y/o texto (10) y no se
represente o bien se suprima considerablemente el ruido de fondo
("Noise"). La generación de los ejes y de la proyección se
basan en la citada base de datos (22) lingüística y, por ejemplo,
multilingüe, la cual está asociada a una taxonomía universal o a un
árbol taxonómico universal. "Universal" significa que no es
necesario predeterminar mediante la taxonomía un área definida con
anterioridad a la catalogación y/o el indexado de los datos de
texto y/o voz (10). Hasta ahora, el estado de la técnica no permitía
realizar esto de esta manera.
Las palabras, términos y/o locuciones que
aparecen en un documento se comparan con una amplia lista de
palabras almacenada en la base de datos lingüística (22). En este
contexto, se denominan "locuciones" a las expresiones
pluriverbales fijas tales como, por ejemplo, los conceptos
"nuclear power plant" ("central eléctrica nuclear"),
"Commision of Human Rights" ("Comité de Derechos
Humanos"), "Europäisches Patentamt" o bien "Office
européen des brevets" ("Oficina Europea de Patentes"). En
el ejemplo de realización, se ha determinado que para esta base de
datos lingüística (22) son suficientes 2,2 millones de entradas para
los idiomas inglés, francés, alemán e italiano, si bien para poder
funcionar la base de datos (22) lógicamente puede comprender
cualquier cantidad mayor o menor de entradas. Por ejemplo, las
palabras/locuciones con el mismo significado (sinónimos) se pueden
reunir en grupos de sinónimos ("synsets"), por ejemplo, también
de modo conjunto para todos los idiomas. Estos grupos de sinónimos
se asocian a un nudo de taxón en la tabla de taxonomía o árbol
taxonómico jerárquico. La distribución de los aciertos de nudos de
taxón (entradas) para determinados datos de voz y/o texto (10) o
para un documento a analizar constituye una medida fiable de su
contenido temático.
La figura 3 muestra una estructura del tipo de
una tabla de taxonomía (21). Por ejemplo, las entradas de cada
idioma pueden estar estructuradas de la siguiente manera:
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
(Tabla pasa a página
siguiente)
- \text{*})
- El término "gift" existe en inglés y en alemán, pero tiene un significado totalmente distinto en cada uno de estos idiomas.
Además, existen términos con diferentes
acepciones en el mismo idioma. La palabra inglesa "fly", por
ejemplo, se utiliza con la acepción "flight" (vuelo) o bien
con su acepción de "trousers fly" (bragueta de pantalón). El
término "window" significa una abertura/ventana, pero
"windows" puede referirse a una abertura o a un sistema
operativo. En cambio, "Windows XP" es unívoco.
Las etapas de procedimiento para un primer
análisis de los datos de voz y/o texto (10) puede tener, por
ejemplo, el siguiente aspecto:
(1) Introducción de un documento, es decir, de
datos de voz y/o texto (10);
(2) Una primera evaluación del documento;
(3) Procesado de texto:
- i)
- Extracción del término/locución.
- ii)
- Comparación con entradas en la base de datos lingüística, teniendo en cuenta el idioma y las reglas léxicas para la asociación correcta. Generación mediante la base de datos de los códigos de synset y de hiperónimos, de significancia y de idioma.
- iii)
- Generación de nuevos términos y/o synsets para términos o locuciones no encontradas.
- iv)
- Determinación de la frecuencia por documento del término/locución.
- v)
- Adaptación de idioma, en caso necesario;
(4) Almacenamiento asociado de la
información;
(5) Siguiente documento o datos de voz y/o texto
(10).
Para determinar la entropía y un índice de
relevancia para cada synset (grupo de sinónimos), se calcula la
frecuencia de cada synset (isyn) y cada idioma y/o datos de
texto (10) o bien para cada documento (idoc) en base a:
donde f_{word} =
frecuencia de la palabra en idoc, y sig_{word} =
significancia de la palabra en función de la base de datos
lingüística
(0,...,4)
La ponderación viene dada por
sig_{word}.
El factor norm(idoc) se puede
introducir, por ejemplo, para evitar que documentos muy grandes sean
predominantes en una determinada combinación de documentos. Este
factor se puede determinar, por ejemplo, empíricamente.
La entropía de un sysnet isyn según la
teoría de la información se puede determinar mediante la
fórmula:
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
donde
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Un synset ampliamente distribuido por todos los
datos de voz y/o texto (10) o en todos los documentos, tiene una
"entropía" elevada y contribuirá poco a la diferenciación entre
los documentos. Por ejemplo, en caso de que se analicen
documentos/artículos de una base de datos del periódico Neue Zürcher
Zeitung, es lógico que el término "Neue Zürcher Zeitung"
aparezca en todos los artículos, o en muchos de ellos, si bien no es
apto para diferenciar el contenido de los documentos. Como medida
de la relevancia general de un synset isyn se puede definir
el "índice de relevancia" RI_{isyn} del modo
siguiente:
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Para determinar los ejes del espacio de
contenidos n-dimensional (en este ejemplo de
realización se ha elegido n = 100) se determina la relevancia de un
hiperónimo (nudo de taxón en la tabla de taxonomía -21-), integrando
todos los datos de texto y/o voz (10) a analizar para todos los
índices de relevancia. Esta relevancia es una medida de la
frecuencia total de aciertos de un nudo de taxón para la totalidad
de los datos de texto y/o voz (10).
Esta medida muestra el área temática y/o las
áreas temáticas que predominan en una colección de documentos.
Teóricamente se puede asociar un eje del espacio de contenidos a
cada nudo de taxón. Esto conduciría, por ejemplo, a un espacio de
contenidos de más de 4.000 dimensiones, lo que ocasionaría una
enorme sobrecarga del sistema y, además, tendría demasiados grados
de libertad para una determinación de contenidos.
Por este motivo, por ejemplo, los nudos de taxón
se pueden agrupar en clústeres, por ejemplo, en n-2
(n-2 = 98) clústeres diferentes, por ejemplo, con
la condición de que la relevancia acumulada del "nudo padre"
de clústeres de los nudos de taxón y de todos sus subnudos
represente, como mínimo, un valor umbral predefinible (por ejemplo,
0,5%) de la relevancia total. El clúster se forma al nivel más bajo
posible del árbol taxonómico o de la tabla de taxonomía. Este
procedimiento es comparable, por ejemplo, a la formación de
aglomerados en una demografía. A cada clúster (con todos los
correspondientes synsets que enlazan con él) se asocia un eje del
espacio de contenidos n-dimensional. Por ejemplo, el
eje n-1 se utiliza para los sysnets que no remiten
a un clúster de aglomeración, y los ejes "n" se reservan para
cifras. La figura 4 muestra esquemáticamente la formación de un
clúster de aglomeración de este tipo en la tabla de taxonomía.
Por último, se forman, por ejemplo,
"ntop"áreas temáticas, cada una de ellas compuesta por
un subgrupo determinado de clústeres de aglomeración (por ejemplo,
"ntop" puede ser del orden de 10 a 20). Los aglomerados se
forman de modo que los nudos de taxón de un clúster de aglomeración
que pertenecen a la misma área temática ("Topics") posean un
nudo padre común en la jerarquía de la tabla de taxonomía. La regla
de transformación que de ello resulta puede ser, por ejemplo, que
cada synset remite a uno de los clústeres de aglomeración
seleccionados, según un eje del espacio de contenidos o bien un eje
n-1. Un elevado número de synsets remiten a su vez
a una de las ntop áreas temáticas situadas a un nivel de
agregación superior. La figura 5 muestra un ejemplo de la
combinación de un clúster de aglomeración en áreas temáticas.
Por ejemplo, para la proyección de los
documentos a analizar, es decir, los datos de voz y/o texto (10),
sobre el espacio de contenidos n-dimensional, se
puede definir para cada documento idoc la componente de
vector "c_{i}" para el eje "i" mediante:
siendo
donde
F_{isyn}(idoc) viene dado por la fórmula
anterior.
La unidad (la métrica) para el espacio
n-dimensional se determina mediante la entropía
total de todos los synsets que remiten a un eje "i"
(\forallSynsets_{Eje-i}), de modo que se
puede determinar la entropía total de una manera análoga a la de la
entropía de los sysnets antes definida. Las ponderaciones
"g_{i}" para las componentes "i" se pueden
determinar, por ejemplo, mediante:
Por ejemplo, mediante esta definición los
componentes con entropía baja, es decir, con un grado de
distribución bajo ("high discrimination effect" ("efecto de
discriminación elevado")) reciben una ponderación
correspondientemente alta.
Para la elección de los "m" descriptores
más típicos de un documento, es decir, determinados datos de voz
y/o texto (10), se determina para cada synset "isyn" del
documento idoc un valor de relevancia de synset
Relev_{isyn}, por ejemplo, mediante:
Por ejemplo, se pueden elegir los "m"
synsets que tienen el mayor valor de relevancia
Relev_{isyn} como los "m" descriptores que son los
más característicos de un documento idoc. Estos descriptores
que, por ejemplo, pueden estar almacenados asociados a sus
correspondientes hiperónimos, se utilizan para la catalogación y/o
el indexado. Comprenden las características más importantes del
documento, incluso en los casos en los que la proyección sobre el
espacio de contenidos no queda reflejada de forma óptima por el
contenido de un documento concreto.
Para la catalogación y/o indexado automatizado,
se combina el procedimiento arriba mencionado, que se basa en el
citado procedimiento de análisis estadístico y/o lingüístico, con
uno o varios módulos de red neuronal (26). El procedimiento de
análisis estadístico y/o lingüístico utiliza, tal como se ha
descrito, una amplia tabla de taxonomía (21) universal para
reconocer el contenido temático. Para obtener una panorámica de la
totalidad de los datos de texto y/o voz (10), es decir, de todos los
documentos idoc a analizar, así como para generar una
función de comparación de similitud, se combinan los resultados del
análisis lingüístico con tecnologías neuronales. Se ha observado
que las llamadas técnicas "SOM"
("Self-Organizing-Map" "mapas
autoorganizativos"), por ejemplo la de Kohonen, pueden ser muy
adecuadas. Sin embargo, para un experto está claro que para
determinadas aplicaciones también pueden ser razonables o más
adecuadas otras técnicas de redes neuronales, sin que ello limite
en modo alguno el ámbito de protección de la patente.
La técnica SOM se puede utilizar para el antes
descrito procedimiento de proyección de los datos de voz y/o texto
(10) a analizar, es decir, los documentos idoc, sobre el
espacio de contenidos n-dimensional (por ejemplo, n
= 100). Antes de que se pongan en marcha las iteraciones de redes
neuronales mediante el módulo de red neuronal (26) (aprendizaje no
supervisado), se puede utilizar, por ejemplo, un procedimiento
aproximado de equilibrado de los grupos, a fin de obtener para la
técnica SOM una evaluación inicial fiable. Este procedimiento puede
acelerar considerablemente el proceso de iteración y minimizar el
riesgo de que la técnica SOM conduzca a una configuración no óptima
(por ejemplo, un mínimo local). Para el algoritmo SOM, la distancia
entre dos vectores (documentos idoc) "a" y "b" se
puede determinar, por ejemplo, del modo siguiente:
donde KL_{a,b} es la
distancia de Kullback-Leibler entre dos documentos,
por cuanto la asociación mediante un vector de contenido "c"
de un documento idoc a un área temática "jtop" se mide
con la
fórmula:
siendo
Donde \forallKomponenten_{jtop}
corresponde a todos los componentes que remiten a jtop.
También en este caso,
\forallDeskriptoren_{jtop} corresponde a todos los
descriptores que remiten a "jtop". ErrMS es el cálculo
estimativo del error cuadrático medio (desviación) con, por ejemplo,
ErrMS \geq 10^{-5}. Por ejemplo, las masas
normalizadas
se pueden interpretar como las
probabilidades de que el documento idoc pertenezca a una
determinada área temática "jtop". La distancia de
Kullback-Leibler entre dos documentos idoc y
kdoc con vectores de contenido "a" y "b" viene
dada
por:
La parte de Kullback-Leibler de
la distancia total hace que la técnica SOM conduzca los documentos
al área global correcta. Así pues, la parte de
Kullback-Leibler actúa como condición límite de la
técnica SOM. En cambio, la parte métrica de la distancia total es
responsable de la colocación local en las neuronas individuales de
un área temática. Mediante la técnica SOM con condiciones límite,
los documentos a analizar, es decir, todos los datos de texto y/o
voz (10), se agrupan en un vector de neuronas bidimensional
("Informations-Map" ("mapa de
informaciones")) con el módulo de red neuronal (26). La figura 6
muestra el resultado de este mapa de informaciones o mapa de
Kohonen. Con ello, los documentos de una neurona son similares entre
sí en lo que respecta a su contenido temático. Las neuronas se
agrupan de modo que estén en el área temática global a la que están
principalmente asociadas, y las neuronas temáticamente
correlacionadas están próximas entre sí (ver la figura 6 con las
áreas temáticas a,....,k).
En el procedimiento de comparación y evaluación,
una consulta de búsqueda puede constar, por ejemplo, de un par de
términos de búsqueda o bien un documento de texto en un lenguaje
natural. Por ejemplo, el texto de búsqueda puede abarcar todo el
contenido de un documento a fin de buscar documentos similares en la
colección de documentos indexada y/o catalogada. Sin embargo, el
texto de búsqueda también puede contener sólo una pequeña parte del
documento en cuestión. Por este motivo, en ciertos casos la
distancia métrica entre el texto de búsqueda y los documentos no
puede ser un criterio fiable para encontrar los documentos más
próximos al texto de la búsqueda. Se genera una medida más fiable
para la comparación y la evaluación jerárquica mediante el producto
escalar de los vectores de contenido. Esta medida garantiza que se
tienen eficazmente en cuenta las partes comunes entre el texto de
búsqueda y los documentos. Por ejemplo, se puede definir una medida
de similitud entre el texto de búsqueda y un documento mediante la
fórmula:
en la que "q" es el vector de
contenido del texto de búsqueda, "c" es el vector de contenido
de la neurona en la que está colocado el documento, y
DescrSim es la medida de la similitud entre los "m"
descriptores del texto de búsqueda y del documento (por ejemplo, m=
20), tal como se describe más adelante. El término DescrSim
comprende la suma ponderada de pares de descriptores diferentes, de
modo que los pares con descriptores idénticos en el texto de
búsqueda y en el documento buscado se puedan ponderar, por ejemplo,
hasta 100 puntos. Por ejemplo, los pares de descriptores que se
refieren a un hiperónimo común (nudos de taxón en la tabla de
taxonomía), se pueden ponderar con 30 puntos en caso de que el nudo
de taxón común sea directamente el nudo de taxón de los
descriptores, con 10 puntos en caso de que el nudo de taxón común
esté un nivel jerárquico por encima, 3 puntos cuando el nudo de
taxón esté dos niveles jerárquicos por encima y 1 punto cuando el
nudo de taxón común está tres niveles jerárquicos por encima. Por
ejemplo, con Relev_{isyn}() como valor de
relevancia de los descriptores en un documento, se puede determinar
que
donde
siendo m1 = número de pares
concordantes (m1 \leq m). El producto escalar, igual
que en la medida de similitud antes descrita, corresponde a la
similitud entre una (colección parcial de documentos) y el texto de
búsqueda. El término DescrSim cuantifica los detalles de los
documentos individuales en una neurona dada. Por ejemplo, el factor
"0,01" en la definición de DescrSim se puede determinar
empíricamente. Por ejemplo, se puede determinar de forma que el
producto escalar ("Cross Positioning" "posicionado
recíproco") y las extensiones individuales (DescrSim) estén
divididos de forma
equilibrada.
Para la comparación y la ponderación con la
medida de similitud antes definida, el procedimiento de comparación
es claro. Por ejemplo, se encuentran los nDoc documentos más
próximos a un determinado texto de búsqueda. En primer lugar se
busca el área parcial con las neuronas de producto escalar más alto,
hasta que el número de documentos seleccionados supere el valor
límite de, por ejemplo, 3\cdotnDoc. Seguidamente se
organizan decrecientemente los documentos seleccionados según sus
valores de similitud (incluida la extensión DescrSim). Los
primeros nDoc documentos forman el documento deseado en el
orden de valoración. En caso de que la búsqueda temática no tenga
sentido, es decir, por ejemplo, cuando la consulta de búsqueda está
compuesta sólo por pocas palabras que no contribuyen a ningún
contenido de diferenciación, se puede realizar la selección, por
ejemplo, utilizando el índice de búsqueda para los synsets
individuales dentro de un documento. La medida de similitud antes
definida puede estar, por ejemplo, entre 0 y 2. La transformación en
un porcentaje de valoración se puede realizar, por ejemplo, con la
fórmula
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
El reconocimiento de derivados de documentos
significa la identificación de los clústeres de documentos cuyo
contenido es casi idéntico. Pueden ser, por ejemplo, copias
distintas del mismo documento con pequeñas modificaciones tales
como, por ejemplo, las memorias de patentes de una misma familia de
patentes, cuyo texto y/o ámbito de protección puede variar
levemente de un país a otro. El dispositivo y/o el procedimiento
según la invención permiten la identificación automatizada de
clústeres de documentos con documentos casi idénticos. Ofrecen
además la posibilidad de suprimir documentos más antiguos y pueden
constituir una herramienta para administrar y mantener actualizadas
tales colecciones de documentos (por ejemplo, mediante una
"limpieza" periódica).
Por ejemplo, la medida de similitud empleada
para comparar y/o valorar los documentos cuando se identifican
clústeres para un texto de búsqueda no siempre conduce a resultados
satisfactorios para descubrir dichos clústeres. Para el
"clústering" de documentos, la distancia entre dos documentos
idoc1 y idoc2 se mide con sus vectores de contenido
"a"y "b"con la fórmula
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
en la que DescrDist es la
suma ponderada de la desviación de los descriptores. Por ejemplo, se
puede determinar que los pares de descriptores correspondientes de
dos conjuntos de "m" descriptores (por ejemplo, m=20)
no aportan nada, mientras pares de descriptores no correspondientes
se ponderan con 1 punto si tienen un nudo de taxón común directo,
con 2 puntos si tienen un nudo de taxón común en un nivel de
jerarquía superior y con 5 puntos en el resto de los casos. Por
ejemplo, con Relev_{isyn}() como valor de relevancia
de los descriptores existentes en un documento, se puede determinar
que
con
Por ejemplo, el factor "0,1" en la
definición de DescDist se puede determinar empíricamente
ponderando recíprocamente de manera equilibrada la distancia
métrica y las derivaciones de los descriptores.
El algoritmo SOM con condiciones límite
garantiza que los candidatos para un determinado clúster de
documentos se ubican en la misma neurona. De esta manera se puede
conseguir individualmente el "clústering" para cada neurona.
Por ejemplo, para los documentos contenidos en una neurona, se puede
determinar la matriz de distancia con DocDist del modo antes
descrito (matriz simétrica con todos los elementos 0 en la
diagonal). La figura 8 muestra un esquema para la generación de
clústeres en una neurona. DocEps representa una tolerancia
determinable para el máximo de la distancia entre los miembros de un
clúster.
Se señala que la presente invención se puede
utilizar no sólo como dispositivo de análisis de voz y/o texto (20)
para formar un catálogo de búsqueda y/o clasificación. Las
aplicaciones son muy variadas en todos los aspectos. Por ejemplo,
es posible reconocer y asignar automatizadamente a un área los datos
contenidos en una o varias redes (40), (41), (42), por ejemplo, en
Internet. Hasta ahora esto no se podía realizar en el estado de la
técnica, dado que no era posible utilizar una tabla de taxonomía
universal conjuntamente con la catalogación y/o el indexado
automatizados. Las redes de comunicación (40), (41), (42)
comprenden, por ejemplo, una red GSM o UMTS, o bien una red de
telefonía móvil por satélite y/o una o varias redes fijas, por
ejemplo, la red pública de telefonía, la red Internet de ámbito
mundial, o una LAN ("Local Area Network" ("red de área
local")) o WAN ("Wide Area Network" ("red de área
amplia")) adecuada. En especial, también comprende las conexiones
ISDN y XDSL. Por ejemplo, los usuarios pueden acceder a una o
varias de las redes (30), (31), (32), (33) mediante cualquier
aparato terminal con capacidad de conexión a redes, por ejemplo, un
CPE ("Customer Premise Equipments" ("equipos en locales de
cliente")), ordenadores personales (30), ordenadores portátiles
(31), un PDA (32), transceptores móviles (33), etc., sobre los que
actúan varias redes (40), (41), (42). Especialmente en los tiempos
actuales, el dispositivo se puede utilizar, por ejemplo, no sólo
para encontrar datos concretos, sino también para controlar y/o
vigilar automatizadamente el flujo de datos en redes. De esta
manera, la presente invención también se puede utilizar en la lucha
contra el terrorismo (por ejemplo, la detección precoz de un acto
terrorista) o en la lucha contra la delincuencia en Internet (por
ejemplo, el racismo, la pedofilia, etc.).
Es importante señalar que la formación de
clústeres/agregados según la invención no se refiere a los
documentos individuales, tal como en parte sucede con el estado de
la técnica (ver, por ejemplo, los documentos WO 03/052627 y US
6711585). Según la invención, se asocian en clústeres la totalidad
de los términos que aparecen, a fin de construir con ellos un
espacio de contenidos que pueda caracterizar de forma óptima los
temas tratados en la colección de documentos. No obstante, según la
invención esto sólo es una etapa intermedia para la proyección de
los documentos sobre vectores que finalmente se emplean para
clasificar los documentos en los mapas de Kohonen. En la presente
invención, el fundamento del análisis de textos es la citada base de
datos lingüística. La base de datos lingüística puede ser muy
grande y abarcar, como en este caso, más de 2,2 millones de entradas
en idiomas diferentes (en este caso, por ejemplo, inglés, alemán,
francés e italiano). El sistema agrupa palabras y términos
compuestos de significado similar en grupos de sinónimos que abarcan
varios idiomas, y los enlaza con el árbol taxonómico
"universal" (a fin de clasificar el contenido de los grupos de
sinónimos). Cuando se analiza una colección de documentos dada, tal
como se ha descrito, a partir del contenido efectivo de los
documentos en cuestión y de los enlaces y correspondencias
almacenados en la base de datos lingüística, se construye en primer
lugar un espacio de contenidos 100-dimensional cuyos
ejes pueden caracterizar de forma óptima los contenidos presentes
en los documentos. Después de una proyección de los documentos sobre
el espacio de contenidos construido, los documentos se organizan de
modo lógico (en este caso, con mapas de Kohonen) mediante las redes
neuronales autoorganizativas, y se dotan de descriptores de forma
totalmente automática. La característica especial de la presente
invención y de la nueva tecnología es que ya no es necesaria ninguna
intervención humana para la clasificación de cualquier colección de
documentos: sin la preparación de un vocabulario especial, sin una
taxonomía especial, sin tesauros especiales y, sobre todo, sin un
costoso adiestramiento de la clasificación de documentos también se
resuelve de manera congruente el problema del multilingüismo (una
traducción inglesa de un documento alemán recibe la misma
clasificación que el documento original). Estas son las
consecuencias directas de la referencia a la base de datos
lingüística con la taxonomía universal y de la proyección
adecuadamente diseñada sobre un espacio de contenidos óptimo. Esto
no se ha podido conseguir hasta ahora, ni siquiera de forma
aproximada, con ninguno de los sistemas conocidos del estado de la
técnica.
Claims (26)
1. Dispositivo de análisis de voz y texto (20)
para formar un catálogo de búsqueda y/o clasificación que comprende,
como mínimo, una base de datos lingüística (22) para asociar
términos lingüísticos a registros de datos, de modo que los datos
de voz y/o texto (10) se pueden clasificar y/o seleccionar mediante
el dispositivo de análisis de voz y texto según los registros de
datos, y en el que los términos lingüísticos comprenden, como
mínimo, palabras clave y/o términos de búsqueda,
caracterizado porque:
- -
- la base de datos lingüística (22) comprende nexos de palabras y/o términos compuestos de significado similar y los nexos son asociables a grupos de sinónimos de una tabla de taxonomía (21); porque
- -
- el dispositivo de análisis de voz y texto (20) comprende una módulo de ponderación (23) para ponderar elementos de la tabla de taxonomía (21) en función de la frecuencia de aparición de cada nexo de la base de datos lingüística (22); porque
- -
- el dispositivo de análisis de voz y texto (20) comprende un módulo de integración (24), de modo que con el módulo de integración (24) se puede generar una matriz de contenido ponderada multidimensional en base a los aglomerados de elementos de la tabla de taxonomía (21); porque
- -
- el dispositivo de análisis de voz y texto (20) comprende, como mínimo, un módulo de red neuronal (26) para clasificar y/o seleccionar los datos de voz y/o texto (10) en base a la matriz de contenido, de modo que se pueden determinar, para uno o varios grupos de temas, descriptores de condiciones límite correspondientes al dispositivo de análisis de voz y texto (20).
2. Dispositivo de análisis de voz y texto (20),
según la reivindicación 1, caracterizado porque los nexos de
la base de datos lingüística son definibles para varios idiomas.
3. Dispositivo de análisis de voz y/o texto (20)
para formar un catálogo de búsqueda y/o clasificación que
comprende, como mínimo, una base de datos lingüística (22) para
asociar términos lingüísticos a registros de datos, de modo que con
el dispositivo de análisis de voz y/o texto se pueden clasificar y/o
seleccionar los datos de voz y/o texto (10) según los registros de
datos y en el que los términos lingüísticos comprenden, como mínimo
palabras clave y/o términos de búsqueda, caracterizado
porque:
- -
- el dispositivo de análisis de voz y/o texto (20) comprende una tabla de taxonomía (21) con nudos de taxón variables basada en la base de datos lingüística (22), de modo que uno o varios registros de datos son asociables a un nudo de taxón en la tabla de taxonomía (21) y cada registro de datos comporta un factor de significancia para evaluar los términos en base a, como mínimo, palabras expletivas y/o palabras de enlace y/o palabras clave; porque
- -
- el dispositivo de análisis de voz y/o texto (20) comprende un módulo de ponderación (23), de modo que a cada nudo de taxón se asocia y se almacena adicionalmente un parámetro de ponderación para determinar las frecuencias de aparición de términos dentro de los datos de voz y/o texto (10) a clasificar y/o seleccionar; porque
- -
- el dispositivo de análisis de voz y/o texto (20) comprende un módulo de integración (24) para determinar un número predefinible de aglomerados en base a los parámetros de ponderación de los nudos de taxón de la tabla de taxonomía (21), de modo que un aglomerado comporta, como mínimo, un nudo de taxón; y porque
- -
- el dispositivo de análisis de voz y/o texto (20) comprende, como mínimo, un módulo de red neuronal (26) para clasificar y/o seleccionar los datos de voz y/o texto (10) en base a los aglomerados de la tabla de taxonomía (21).
4. Dispositivo de análisis de voz y/o texto
(20), según la reivindicación 3, caracterizada porque el
módulo de red neuronal (26) comporta, como mínimo, un mapa de
Kohonen autoorganizativo.
5. Dispositivo de análisis de voz y/o texto
(20), según una de las reivindicaciones 3 ó 4, caracterizado
porque el dispositivo de análisis de voz y/o texto comprende un
módulo de entropía (25) para determinar un parámetro de entropía
almacenable en un módulo de memoria, en base a la distribución de un
registro de datos en los datos de voz y/o texto (10).
6. Dispositivo de análisis de voz y/o texto
(20), según una de las reivindicaciones 3 a 5, caracterizado
porque la base de datos lingüística (22) comporta registros de
datos multilingües.
7. Dispositivo de análisis de voz y/o texto
(20), según una de las reivindicaciones 3 a 6, caracterizado
porque el dispositivo de análisis de voz y/o texto comprende una
tabla hash asociada a la base de datos lingüística (22), de modo
que mediante un valor hash se pueden identificar en la tabla hash
los registros de datos lingüísticamente enlazados.
8. Dispositivo de análisis de voz y/o texto (20)
según una de las reivindicaciones 3 a 7, caracterizado porque
los registros de datos se pueden asociar a un idioma mediante un
parámetro de idioma y se pueden marcar como sinónimos en la tabla
de taxonomía (21).
9. Dispositivo de análisis de voz y/o texto
(20), según una de las reivindicaciones 3 a 8, caracterizado
porque el parámetro de entropía viene dado por la fórmula:
10. Dispositivo de análisis de voz y/o texto
(20) según una de las reivindicaciones 3 a 9, caracterizado
porque los aglomerados son asociables a una matriz
n-dimensional de contenidos de un espacio de
contenidos n-dimensional.
11. Dispositivo de análisis de voz y/o texto
(20), según la reivindicación 10, caracterizado porque
"n" es igual a 100.
12. Dispositivo de análisis de voz y/o texto
(20), según una de las reivindicaciones 3 a 11, caracterizado
porque el dispositivo de análisis de voz y/o texto comprende
descriptores definibles mediante los cuales se pueden determinar
las correspondientes condiciones límite para un grupo temático.
13. Dispositivo de análisis de voz y/o texto
(20), según una de las reivindicaciones 3 a 12, caracterizado
porque la Datenbank comporta una base de datos lingüística (22)
universal e independiente de temas, y la tabla de taxonomía (21) se
puede generar de modo universal e independiente de temas.
14. Procedimiento automatizado de análisis de
voz y texto para formar un catálogo de búsqueda y/o clasificación,
en el que se adquieren registros de datos mediante una base de datos
lingüística (22) y se clasifican y/o seleccionan datos de voz y/o
texto (10) según los registros de datos, caracterizado
porque:
- los registros de datos de la base de datos
lingüística (22) se almacenan asociados a un nudo de taxón de la
tabla de taxonomía (21), de modo que cada registro de datos comporta
un factor de significancia variable para evaluar los términos en
base a, como mínimo, palabras expletivas y/o palabras de enlace y/o
palabras clave; porque
- los datos de voz y/o texto (10) se adquieren
en base a la tabla de taxonomía (21), de modo que la frecuencia de
cada registro de datos en los datos de voz y/o texto (10) se
determina mediante un módulo de ponderación (23) y se asocia a un
parámetro de ponderación del nudo de taxón; porque
- mediante un módulo de integración (24) se
determina un número definible de aglomerados en la tabla de
taxonomía (21) en función de los parámetros de ponderación de uno o
varios nudos de taxón; porque
- mediante un módulo de red neuronal (26) se
clasifican y/o seleccionan los datos de voz y/o texto (10) en base
a los aglomerados de la tabla de taxonomía (21).
15. Procedimiento automatizado de análisis de
voz y texto, según la reivindicación 14, caracterizado porque
el módulo de red neuronal (26) comprende, como mínimo, un mapa de
Kohonen autoorganizativo.
16. Procedimiento automatizado de análisis de
voz y texto, según una de las reivindicaciones 14 ó 15,
caracterizado porque mediante un módulo de entropías (25) se
determina un factor de entropía en base a la distribución de
registros de datos en los datos de voz y/o texto (10).
17. Procedimiento automatizado de análisis de
voz y texto, según una de las reivindicaciones 14 a 16,
caracterizado porque la base de datos lingüística (22)
comprende registros multilingües de datos.
18. Procedimiento automatizado de análisis de
voz y texto, según una de las reivindicaciones 14 a 17,
caracterizado porque se almacena una tabla hash asociada a
la base de datos lingüística (22), de modo que la tabla hash
comporta, mediante un valor hash, una identificación de registros de
datos enlazados.
19. Procedimiento automatizado de análisis de
voz y texto, según una de las reivindicaciones 14 a 18,
caracterizado porque los registros de datos se pueden
asociar a un idioma mediante un parámetro de idioma y se pueden
marcar como sinónimos en la tabla de taxonomía (21).
20. Procedimiento automatizado de análisis de
voz y texto, según una de las reivindicaciones 14 a 19,
caracterizado porque el factor de entropía viene dado por la
fórmula:
\vskip1.000000\baselineskip
21. Procedimiento automatizado de análisis de
voz y texto, según una de las reivindicaciones 14 a 20,
caracterizado porque los aglomerados conforman un espacio de
contenido n-dimensional.
22. Procedimiento automatizado de análisis de
voz y texto, según la reivindicación 21, caracterizado porque
"n" es igual a 100.
23. Procedimiento automatizado de análisis de
voz y texto, según una de las reivindicaciones 14 a 22,
caracterizado porque mediante descriptores definibles se
pueden determinar las condiciones límite para un grupo temático.
24. Procedimiento automatizado de análisis de
voz y texto, según una de las reivindicaciones 14 a 23,
caracterizado porque los nudos de taxón de la tabla de
taxonomía (21) se generan en base a una base de datos lingüística
universal, independiente de temas, de modo que la Datenbank (22)
comprende, como mínimo, la base de datos lingüística universal
independiente de temas.
25. Producto de programa de ordenador, el cual
comprende un soporte legible por ordenador que contiene medios de
programa de ordenador para controlar uno o varios procesadores de un
sistema informático para el análisis automatizado de voz y texto
mediante la formación de un catálogo de búsqueda y/o clasificación,
de modo que en base a una base de datos lingüística (22) se
registran registros de datos y se clasifican y/o seleccionan datos
de voz y/o texto (10) en función de los registros de datos,
caracterizado porque:
- mediante el producto de programa de ordenador
los registros de datos de la base de datos lingüística (22) son
almacenables y asignables a un nudo de taxón de una tabla de
taxonomía (21,...,25), de modo que cada registro de datos comprende
un factor de significancia variable para evaluar los términos en
base a, como mínimo, palabras expletivas y/o palabras de enlace y/o
palabras clave; porque
- mediante el producto de programa de ordenador
se pueden adquirir los datos de voz y/o texto (10) en base a la
tabla de taxonomía (21), de modo que la frecuencia de cada registro
de datos en los datos de voz y/o texto (10) determina un parámetro
de ponderación de los nudos de taxón; porque
- mediante el producto de programa de ordenador
y según el parámetro de ponderación de uno o varios nudos de taxón
se puede determinar un número definible de aglomerados en la tabla
de taxonomía (21); y porque
- mediante el producto de programa de ordenador
se puede generar una red neuronal, con la que se pueden clasificar
y/o seleccionar los datos de voz y/o texto (10) en base a los
aglomerados de la tabla de taxonomía (21) los datos de lenguaje y/o
texto (10).
26. Producto de programa de ordenador que se
puede cargar en la memoria interna de un ordenador digital y que
comporta secciones de código de software con los que se pueden
ejecutar las etapas, según una de las reivindicaciones 14 a 24,
cuando el producto funciona en un ordenador, de modo que las redes
neuronales se pueden generar con software y/o hardware.
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| PCT/EP2004/051798 WO2006018041A1 (de) | 2004-08-13 | 2004-08-13 | Sprach- und textanalysevorrichtung und entsprechendes verfahren |
| WOPCT/EP04/051798 | 2004-08-13 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| ES2300046T3 true ES2300046T3 (es) | 2008-06-01 |
Family
ID=34958240
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| ES05777992T Expired - Lifetime ES2300046T3 (es) | 2004-08-13 | 2005-08-09 | Dispositivo de analisis de voz y texto, y procedimiento correspondiente. |
Country Status (6)
| Country | Link |
|---|---|
| US (2) | US20080215313A1 (es) |
| EP (2) | EP1779263A1 (es) |
| AT (1) | ATE382903T1 (es) |
| DE (1) | DE502005002442D1 (es) |
| ES (1) | ES2300046T3 (es) |
| WO (2) | WO2006018041A1 (es) |
Families Citing this family (28)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| GR20050100216A (el) * | 2005-05-04 | 2006-12-18 | i-sieve :����������� ����������� ������������ ����������� �.�.�. | Πιθανοθεωρητικη μεθοδος συντηξης πληροφοριας για διηθηση πολυγλωσσικου, ημιδομημενου και πολυμεσικου ηλεκτρονικου περιεχομενου |
| JP4803709B2 (ja) * | 2005-07-12 | 2011-10-26 | 独立行政法人情報通信研究機構 | 単語用法差異情報取得プログラム及び同装置 |
| US8340957B2 (en) * | 2006-08-31 | 2012-12-25 | Waggener Edstrom Worldwide, Inc. | Media content assessment and control systems |
| US7844890B2 (en) * | 2006-12-29 | 2010-11-30 | Sap Ag | Document link management |
| US7899666B2 (en) * | 2007-05-04 | 2011-03-01 | Expert System S.P.A. | Method and system for automatically extracting relations between concepts included in text |
| US20080301129A1 (en) | 2007-06-04 | 2008-12-04 | Milward David R | Extracting and displaying compact and sorted results from queries over unstructured or semi-structured text |
| JP2009026083A (ja) * | 2007-07-19 | 2009-02-05 | Fujifilm Corp | コンテンツ検索装置 |
| US20090319505A1 (en) * | 2008-06-19 | 2009-12-24 | Microsoft Corporation | Techniques for extracting authorship dates of documents |
| US8560298B2 (en) * | 2008-10-21 | 2013-10-15 | Microsoft Corporation | Named entity transliteration using comparable CORPRA |
| US20100153366A1 (en) * | 2008-12-15 | 2010-06-17 | Motorola, Inc. | Assigning an indexing weight to a search term |
| US8332205B2 (en) * | 2009-01-09 | 2012-12-11 | Microsoft Corporation | Mining transliterations for out-of-vocabulary query terms |
| CN102141978A (zh) | 2010-02-02 | 2011-08-03 | 阿里巴巴集团控股有限公司 | 一种文本分类的方法及系统 |
| US8949227B2 (en) * | 2010-03-12 | 2015-02-03 | Telefonaktiebolaget L M Ericsson (Publ) | System and method for matching entities and synonym group organizer used therein |
| JP2012027723A (ja) * | 2010-07-23 | 2012-02-09 | Sony Corp | 情報処理装置、情報処理方法及び情報処理プログラム |
| DE102011009376A1 (de) * | 2011-01-25 | 2012-07-26 | SUPERWISE Technologies AG | Automatische Klassifikation eines Dokumentenpools mit einem neuronalen System |
| DE102011009378A1 (de) * | 2011-01-25 | 2012-07-26 | SUPERWISE Technologies AG | Automatische Extraktion von Informationen über semantische Zusammenhänge aus einem Dokumentenpool mit einem neuronalen System |
| US9495352B1 (en) | 2011-09-24 | 2016-11-15 | Athena Ann Smyros | Natural language determiner to identify functions of a device equal to a user manual |
| US9721039B2 (en) * | 2011-12-16 | 2017-08-01 | Palo Alto Research Center Incorporated | Generating a relationship visualization for nonhomogeneous entities |
| US10163063B2 (en) | 2012-03-07 | 2018-12-25 | International Business Machines Corporation | Automatically mining patterns for rule based data standardization systems |
| US20140279598A1 (en) * | 2013-03-15 | 2014-09-18 | Desire2Learn Incorporated | Systems and methods for automating collection of information |
| EP3005668B1 (en) * | 2013-06-08 | 2018-12-19 | Apple Inc. | Application gateway for providing different user interfaces for limited distraction and non-limited distraction contexts |
| US10061766B2 (en) * | 2015-07-27 | 2018-08-28 | Texas State Technical College System | Systems and methods for domain-specific machine-interpretation of input data |
| CN105868236A (zh) * | 2015-12-09 | 2016-08-17 | 乐视网信息技术(北京)股份有限公司 | 一种同义词数据挖掘方法和系统 |
| US10043070B2 (en) * | 2016-01-29 | 2018-08-07 | Microsoft Technology Licensing, Llc | Image-based quality control |
| US20190207946A1 (en) * | 2016-12-20 | 2019-07-04 | Google Inc. | Conditional provision of access by interactive assistant modules |
| US10127227B1 (en) | 2017-05-15 | 2018-11-13 | Google Llc | Providing access to user-controlled resources by automated assistants |
| US11436417B2 (en) | 2017-05-15 | 2022-09-06 | Google Llc | Providing access to user-controlled resources by automated assistants |
| US11455418B2 (en) | 2018-08-07 | 2022-09-27 | Google Llc | Assembling and evaluating automated assistant responses for privacy concerns |
Family Cites Families (10)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5778362A (en) * | 1996-06-21 | 1998-07-07 | Kdl Technologies Limted | Method and system for revealing information structures in collections of data items |
| US6446061B1 (en) * | 1998-07-31 | 2002-09-03 | International Business Machines Corporation | Taxonomy generation for document collections |
| US6263334B1 (en) * | 1998-11-11 | 2001-07-17 | Microsoft Corporation | Density-based indexing method for efficient execution of high dimensional nearest-neighbor queries on large databases |
| US6574632B2 (en) * | 1998-11-18 | 2003-06-03 | Harris Corporation | Multiple engine information retrieval and visualization system |
| IT1303603B1 (it) * | 1998-12-16 | 2000-11-14 | Giovanni Sacco | Procedimento a tassonomia dinamica per il reperimento di informazionisu grandi banche dati eterogenee. |
| US6711585B1 (en) * | 1999-06-15 | 2004-03-23 | Kanisa Inc. | System and method for implementing a knowledge management system |
| US6278987B1 (en) * | 1999-07-30 | 2001-08-21 | Unisys Corporation | Data processing method for a semiotic decision making system used for responding to natural language queries and other purposes |
| US7451075B2 (en) * | 2000-12-29 | 2008-11-11 | Microsoft Corporation | Compressed speech lexicon and method and apparatus for creating and accessing the speech lexicon |
| AUPR958901A0 (en) * | 2001-12-18 | 2002-01-24 | Telstra New Wave Pty Ltd | Information resource taxonomy |
| US6886010B2 (en) * | 2002-09-30 | 2005-04-26 | The United States Of America As Represented By The Secretary Of The Navy | Method for data and text mining and literature-based discovery |
-
2004
- 2004-08-13 EP EP04766500A patent/EP1779263A1/de not_active Withdrawn
- 2004-08-13 US US11/659,955 patent/US20080215313A1/en not_active Abandoned
- 2004-08-13 WO PCT/EP2004/051798 patent/WO2006018041A1/de not_active Ceased
-
2005
- 2005-08-09 US US11/659,962 patent/US8428935B2/en not_active Expired - Fee Related
- 2005-08-09 WO PCT/EP2005/053921 patent/WO2006018411A2/de not_active Ceased
- 2005-08-09 EP EP05777992A patent/EP1779271B1/de not_active Expired - Lifetime
- 2005-08-09 DE DE502005002442T patent/DE502005002442D1/de not_active Expired - Lifetime
- 2005-08-09 ES ES05777992T patent/ES2300046T3/es not_active Expired - Lifetime
- 2005-08-09 AT AT05777992T patent/ATE382903T1/de not_active IP Right Cessation
Also Published As
| Publication number | Publication date |
|---|---|
| US20080215313A1 (en) | 2008-09-04 |
| EP1779271A2 (de) | 2007-05-02 |
| EP1779271B1 (de) | 2008-01-02 |
| US8428935B2 (en) | 2013-04-23 |
| WO2006018411A3 (de) | 2006-06-08 |
| US20070282598A1 (en) | 2007-12-06 |
| EP1779263A1 (de) | 2007-05-02 |
| DE502005002442D1 (de) | 2008-02-14 |
| WO2006018041A1 (de) | 2006-02-23 |
| ATE382903T1 (de) | 2008-01-15 |
| WO2006018411A2 (de) | 2006-02-23 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| ES2300046T3 (es) | Dispositivo de analisis de voz y texto, y procedimiento correspondiente. | |
| CN104169948B (zh) | 用于文本语义处理的方法、装置及产品 | |
| Hashemi et al. | Query intent detection using convolutional neural networks | |
| Bhattacharya et al. | Unsupervised summarization approach with computational statistics of microblog data | |
| Qi et al. | Exploring context and content links in social media: A latent space method | |
| Khan et al. | Ontology construction for information selection | |
| Meng et al. | Semi-supervised heterogeneous fusion for multimedia data co-clustering | |
| Liu et al. | Matching long text documents via graph convolutional networks | |
| Poslad et al. | A Multi-Modal Incompleteness Ontology model (MMIO) to enhance information fusion for image retrieval | |
| KR100341396B1 (ko) | 계층 단어를 이용한 3차원 클러스터링 생성 시스템 및 그방법 | |
| Wu et al. | Towards a probabilistic taxonomy of many concepts | |
| Hai et al. | Improving the efficiency of semantic image retrieval using a combined graph and SOM model | |
| Zhu et al. | Finding story chains in newswire articles using random walks | |
| Guo | [Retracted] Intelligent Sports Video Classification Based on Deep Neural Network (DNN) Algorithm and Transfer Learning | |
| Huang et al. | Knowledge sharing and reuse in digital forensics | |
| AlArfaj et al. | An Intelligent Tree Extractive Text Summarization Deep Learning. | |
| Sun et al. | Discovering patterns of definitions and methods from scientific documents | |
| Khalid et al. | A framework for integrating DBpedia in a multi-modality ontology news image retrieval system | |
| Mudgal et al. | A Novel architecture for question classification based indexing scheme for efficient question answering | |
| Nhi | A self-balanced clustering tree for semantic-based image retrieval | |
| Wang et al. | Adaptive resonance theory based two-stage Chinese name disambiguation | |
| Jiménez | Multimedia knowledge: discovery, classification, browsing, and retrieval | |
| Mule et al. | Context based information retrieval based on ontological concepts | |
| Wang et al. | Image retrieval++—web image retrieval with an enhanced multi-modality ontology | |
| Li et al. | Single Document Viewpoint Summarization based on Triangle Identification in Dependency Graph |