ES2375403T3 - Un método para la indexación automática de documentos. - Google Patents
Un método para la indexación automática de documentos. Download PDFInfo
- Publication number
- ES2375403T3 ES2375403T3 ES01120429T ES01120429T ES2375403T3 ES 2375403 T3 ES2375403 T3 ES 2375403T3 ES 01120429 T ES01120429 T ES 01120429T ES 01120429 T ES01120429 T ES 01120429T ES 2375403 T3 ES2375403 T3 ES 2375403T3
- Authority
- ES
- Spain
- Prior art keywords
- documents
- search term
- search
- elements
- base
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Mechanical Operated Clutches (AREA)
Abstract
Un método para recuperar en base a un término de búsqueda junto con una cierta categoría a la que pertenece el término de búsqueda, a partir de un conjunto de documentos base, los documentos base que contienen dicho término de búsqueda y en los que dicho cierto término de búsqueda pertenece a dicha cierta categoría para posibilitar la construcción de un índice sobre dichos documentos recuperados, comprendiendo dicho método: - buscar (110) en los documentos base de entre dicho conjunto de documentos base los que contienen dicho cierto término de búsqueda; - evaluar (120) los documentos base encontrados para ver si dicho término de búsqueda contenido en dichos documentos base encontrados, pertenecen, respectivamente a dicha cierta categoría o no, comprendiendo dicha evaluación: - generar (200) un documento de texto para representar los elementos en el documento base encontrado alrededor del término de búsqueda y los elementos correspondientes a la posición absoluta o relativa con respecto a dicho término de búsqueda, codificando los elementos de dicho documento de texto, dichas posiciones absolutas o relativas de dichos elementos de alrededor. - introducir (210) dicho documento de texto en un aparato de clasificación ejercitable, que se ha entrenado para reconocer si dicho término de búsqueda en un documento de texto introducido, pertenece a cierta categoría o no, mientras que dicho entrenamiento se ha realizado en base a una muestra de entrenamiento de documentos de texto que se han generado para documentos de texto en los que el término de búsqueda rodeado por los elementos de alrededor pertenecen a dicha cierta categoría; y - clasificar dicho documento de texto introducido para juzgar (220) si dicho término de búsqueda pertenece a dicha cierta categoría introducida o no, e - indexar una pluralidad de dichos documentos base usando dicho término de búsqueda y dicha categoría correspondiente para construir un índice para dichos documentos base.
Description
Un método para la indexación automática de documentos
La presente invención se refiere al procesamiento de documentos de texto, y en particular, a la indexación automática de documentos de texto.
Un modo típico de estructurar grandes volúmenes de datos de modo que puedan accederse fácilmente es indexar los documentos. Esto significa que un documento o un grupo de documentos se referencia por un término de indexación. Una colección de tales términos de indexación forma entonces un índice. Esto se muestra en forma de ejemplo en la Fig. 4.
En la Fig. 4 los documentos de dirección 410, 420, 430 contienen datos de las direcciones sobre personas individuales. Los documentos pueden caracterizarse por los elementos individuales que contienen, uno de ellos es el nombre de familia de las personas a las que se refieren los documentos.
Esta información puede usarse a continuación para construir un índice 440 mostrado en la parte izquierda de la Fig.
4. Este índice contiene una lista de los nombres de la familia que están contenidos en los documentos, y cada uno de los elementos del índice se refiere a un documento individual como puede verse en la Fig. 4.
Este es un modo muy clásico y típico de organizar la información de un modo estructurado de modo que la información deseada o los documentos deseados que contienen un elemento de información buscado y deseado pueden recuperarse y accederse a partir de un gran volumen de documentos.
Los índices pueden construirse para varios elementos tales como el nombre de la familia, el nombre de pila, el nombre de la calle, etc. Lo que tienen en común los índices es que los elementos de un índice tiene todos en algún sentido el mismo "significado", tal como el "nombre de la familia", el "nombre de pila", o similares. Usando una terminología más rigurosa puede decirse que dichos índices pertenecen a una categoría común respectiva que está relacionada con un cierto significado para el ser humano. En lo siguiente, los términos "tener un cierto significado" y "pertenecer a una cierta categoría" se usan de forma sinónima.
Por lo tanto, los elementos individuales que se usan para construir un índice son de algún modo consistentes con respecto a la información que contienen cuando se ven desde un nivel más abstracto. En otras palabras, todos los elementos del índice tienen el mismo "significado".
Otro enfoque más general para el ordenamiento de documentos es caracterizar sólo uno o más documentos por un cierto término, y a continuación construir un índice a partir de los términos individuales usados de ese modo. En tal caso los elementos del índice no tienen que tener un "significado" consistente, aunque puede considerarse que tienen todos, el mismo significado, en el sentido de que cada uno de los elementos caracteriza o describe uno o más documentos a los que se refiere.
Después de que se ha construido un índice, puede usarse para preguntar y acceder al conjunto de documentos ordenados o estructurados por el índice construido de este modo. Puede introducirse directamente uno cualquiera de los términos de búsqueda, y si está contenido en el índice, a continuación se recuperan el documento o los documentos referenciados por el término del índice. Otra posibilidad es "navegar" por el índice, lo cual significa representar los elementos individuales del índice en algún orden (típicamente alfabético), como se muestra en el elemento 440 de la Fig. 4. Esto tiene la ventaja de que un usuario puede tener una visión rápida de qué elementos de índice se usan en total para organizar o "indexar" el conjunto de documentos.
Otro enfoque algo más sofisticado es usar una búsqueda llamada tolerante a fallos, lo que significa que se introduce un término de búsqueda y se recuperan los documentos en los que el valor del índice correspondiente es idéntico o al menos similar (en alguna medida, dependiendo del algoritmo de búsqueda tolerante a fallos utilizado) al termino de búsqueda.
En cualquier caso, la construcción de un índice es un trabajo muy difícil y tedioso, que es el trabajo preparatorio que tiene que hacerse para hacer factible el acceso a grandes conjuntos de documentos de un modo ordenado y significativo.
Los índices típicamente se crean "manualmente", al menos en el caso de documentos a indexar que están "sin estructurar" tal como los documentos de texto simples. Si los documentos a indexar están "estructurados", tal como en el caso de las tablas de bases de datos relacionales, entonces es relativamente fácil construir un índice. Sin embargo, si no se conoce el "significado" individual que tiene un elemento en un documento no estructurado,
entonces es extremadamente difícil y cansado seleccionar los elementos que pueden usarse para indexar este documento.
El documento "Extracción de información de HTML: aplicación de un enfoque general de aprendizaje de una máquina' de FREITAG D PROCEDIMIENTOS DE LA CONFERENCIA NACIONAL DECIMOQUINTA SOBRE INTELIGENCIA ARTIFICIAL (AAAI-98). DÉCIMA CONFERENCIA EN APLICACIONES INNOVADORAS DE INTELIGENCIA ARTIFICIAL, PROCEDIMIENTOS DE LA CONFERENCIA NACIONAL DECIMOQUINTA SOBRE INTELIGENCIA ARTIFICIAL, MADISON, WI, Estados Unidos, páginas 517-523, documento XP002197239 1998, Menlo Parck, CA, Estados Unidos, Prensa AAAI, Prensa MIT, Estados Unidos ISBN: 0-262-51098-7 desvela un método para realizar la extracción de información de páginas Web. La extracción de información se causa como un problema de aprendizaje de una máquina estándar y se describe la implementación de un aprendiz de relación de propósito general para la extracción de información.
En consecuencia, es altamente deseable mejorar el proceso de indexación de documentos.
De acuerdo con la primera realización de la presente invención se proporciona un método para recuperar ciertos documentos a partir de un conjunto de documentos en base a un término de búsqueda introducido y en base también al "significado" correspondiente del término de búsqueda, como se define en la reivindicación 1. En primer lugar se buscan los documentos que contienen el término de búsqueda. A continuación, se evalúan los documentos encontrados (llamados documentos base) para ver si en esos documentos el término de búsqueda contenido en los mismos tiene un cierto significado. Esta evaluación comprende la generación de un documento (o disposición) de texto que representa el término de búsqueda y sus elementos circundantes y su correspondiente posición absoluta o relativa con respecto al término de búsqueda o dentro del documento base. Este documento de texto se introduce a continuación en un aparato de clasificación ejercitable que se ha entrenado para juzgar si el documento de texto introducido pertenece a una cierta categoría o no. Por lo tanto el juicio tiene que determinar si el término de búsqueda tiene el cierto "significado" deseado (es decir, si el documento de texto pertenece a la categoría entrenada) o si no lo tiene (el documento no pertenece a la categoría entrenada).
En base a este juicio puede comprobarse si en los documentos base encontrados los términos buscados tienen el cierto "significado" deseado.
Los términos de búsqueda y los significados correspondientes pueden usarse para construir un índice para los documentos base. Esto puede ser a continuación de utilidad para acceder a una gran reserva de documentos base en un modo ordenado.
De acuerdo con una realización particular dichas etapas de búsqueda, clasificación e indexación se repiten para una pluralidad de términos de búsqueda. Si esto se realiza para cada uno de los documentos base, a continuación puede determinarse para cada uno de los documentos, el valor individual correspondiente que tiene un cierto "significado" y que está contenido en este documento. Por ejemplo, para todos los documentos base de una pila de cartas puede determinarse o "extraerse" la fecha de envío y a continuación los elementos extraídos de este modo junto con su "significado" "fecha de envío" podrían usarse para formar un índice que referencia el conjunto de documentos base. Si esto se realiza para varios "significados" diferentes, tales como el destinatario, la dirección de origen, el número de referencia y así sucesivamente, a continuación podría generarse también una base de datos relacional que mapea el "contenido de información" del conjunto de documentos dentro de las tablas de la base de datos relacional.
De acuerdo con una realización adicional la búsqueda realizada puede comprender una búsqueda asociativa y/o una búsqueda difusa. Esto devolverá también documentos en los cuales los términos de búsqueda están mal escritos o que contienen cualesquiera otros errores de mecanografía.
El entrenamiento del aparato de clasificación puede realizarse seleccionando para el entrenamiento un conjunto de documentos cuyos elementos en los documentos respectivos tienen un cierto "significado", a continuación se generan los documentos de texto para los respectivos documentos base respectivos de la muestra de entrenamiento, y a continuación se usan los documentos de texto generados de este modo como un conjunto de entrenamiento para entrenar el aparato de clasificación funcionando el aparato de clasificación en el modo de entrenamiento.
Usando este enfoque, un aparato de clasificación usando sólo una pequeña muestra de los documentos de entrenamiento puede realmente "aprender" a evaluar si para ciertos documentos base, algunos elementos contenidos en el mismo tienen un cierto significado o no. Este "conocimiento" ejercitado de este modo puede usarse entonces más adelante para construir un índice en base a cierto "significado" que deberían tener los elementos del índice.
El proceso de entrenamiento puede hacerse semiautomáticamente o puede hacerse en otra realización de un modo completamente automatizado. Para el entrenamiento semiautomático un usuario tiene que identificar en los
documentos base los elementos que tienen el "significado" deseado que se va a aprender o a entrenar. Después de que tiene lugar la identificación se proporciona la muestra de entrenamiento y puede realizarse el entrenamiento.
Para realizar un entrenamiento totalmente automático puede usarse un conjunto de documentos (tal como los documentos de una base de datos que ya existe) para el cual los elementos que ya tienen el "significado" son conocidos, por ejemplo como los campos en la base de datos. Esta pila de documentos para los cuales los elementos que tienen el "significado" deseado son ya conocidos puede usarse a continuación como muestras de entrenamiento.
Un conjunto de documentos base pueden indexarse automáticamente comprobando para todos los elementos (o al menos parte de ellos) contenidos en el conjunto de documentos base si esos elementos tienen un cierto "significado"
o no. Con este enfoque de "bomba de arma de fuego" puede indexarse un conjunto de documentos base de forma totalmente automática, sin realizar siquiera ninguna búsqueda. En esta realización sólo se comprueban todos los elementos de los documentos base para ver si tienen un cierto significado deseado, y si es así, entonces esos elementos se usan para construir el índice.
Sin embargo, la selección de elementos para los cuales se realiza la comprobación real, pueden contener alguna "selección inteligente". Por ejemplo, sólo los elementos que cumplen el mismo criterio de formato, podrían seleccionarse para el procedimiento de evaluación. Esto podría reducir a continuación la potencia de cálculo necesaria para realizar la indexación automática.
Para sacar ventaja del uno o más índices que se han construido pueden usarse para formar tablas de bases de datos relacionales. A continuación, los documentos base sin estructurar pueden convertirse automáticamente a una forma estructurada de una base de datos relacional.
La Fig. 1 ilustra esquemáticamente la primera realización de la presenten invención.
La Fig. 2 ilustra esquemáticamente una realización adicional de la presente invención.
La Fig. 3 ilustra esquemáticamente otra realización adicional más de la presente invención.
La Fig. 4 ilustra esquemáticamente la indexación de documentos.
La presente invención se explicará ahora por medio de relaciones ilustrativas en conexión con los dibujos adjuntos.
La Fig. 1 ilustra una primera realización de acuerdo con la presente invención. Asumamos que hay un conjunto de documentos que son no estructurados (solo documentos de texto normales) y que por consiguiente son difíciles de cuestionar para accederlos y ponerlos dentro de alguna forma ordenada.
Asumamos además que el usuario está interesado en los documentos de la pila de documentos base que a) contienen un cierto término, y b) en los cuales el cierto término tiene un cierto "significado", es decir en los que el cierto término pertenece a una cierta categoría que está relacionada con el significado del término para un ser humano. Como ejemplo, asumamos que un usuario está interesado en los documentos de la pila de documentos base que contienen el término "6 de Mayo de 2000", pero adicionalmente en los que el término (o elemento) "6 de Mayo de 2000" es una fecha de factura.
En primer lugar el usuario tiene que introducir entonces el término de búsqueda en el ordenador usando un método de entrada convencional. Además, el correspondiente "significado" que debería tener el término de búsqueda introducido también debería dirigirse de alguna forma al sistema de ordenador. El usuario podría bien introducir manualmente el "significado" correspondiente (tal como una entrada de "fecha de factura") o podría seleccionar de una diversidad de "significados" opcionales, o el "significado" correspondiente podría definirse a un valor por defecto. Después de que se ha clarificado el término de búsqueda y el "significado" correspondiente por la operación 100 en la Fig. 1, el método procede a la operación 110. En este documento la pila de documentos base se buscan los documentos que contienen el término de búsqueda introducido.
Esto recuperará cualesquiera documentos que contengan el elemento "6 de Mayo de 2000". Sin embargo, los documentos recuperados también pueden contener documentos en los que el término de búsqueda tiene un "significado" diferente del "significado" de la "fecha de factura", por ejemplo el "significado" podría ser una "fecha de nacimiento", una "fecha de expiración", o cualquier otra cosa.
Por lo tanto, en la operación 120 tiene que evaluarse si los documentos encontrados son documentos en los que el término se búsqueda tiene el significado deseado correspondiente o no.
Este procedimiento de evaluación se explicará ahora con mayor detalle en conexión con la Fig. 2. En la operación 200 se genera un documento de texto que codifica las posiciones de los elementos que rodean al término de búsqueda en el documento base encontrado. Esto se explica con mucho detalle en la Solicitud de Patente Europea 00103810.8, presentada el 23 de Febrero de 2000, por el solicitante de la presente solicitud y publicada como EP 1 128 278 A1. En particular, esta solicitud trata y describe un método que puede usarse para juzgar si ciertos elementos en un texto tienen un cierto "significado" o no. Esto se hace representando sus posiciones correspondientes a través del llamado "documento de disposición", y este documento de disposición se introduce a continuación dentro de un aparato de clasificación que se ha entrenado para reconocer si el documento de disposición introducido pertenece a cierta categoría o no.
El entrenamiento usualmente se realiza para posibilitar juzgar al aparato de clasificación si el documento de disposición representa el área de alrededor de un término de búsqueda para los documentos en los que el término de búsqueda tiene cualquier "significado" deseado o "entrenado" o no. Para detalles, se hace referencia a la Solicitud de Patente Europea anteriormente mencionada, es decir la EP 1 128 278 A1.
Este documento de disposición (o como lo llamamos en este punto, documento de texto) se usa a continuación como una entrada al aparato de clasificación como se ilustra en la operación 210 de la Fig. 2 de la presente solicitud. Este aparato de clasificación juzga a continuación si el documento de texto introducido pertenece a cierta "categoría"
o no. La "categoría" significa en este punto si el término de búsqueda tiene un cierto "significado" o si no lo tiene (en este caso, si es una fecha de factura o no).
En la operación 220 el aparato de clasificación realiza a continuación su juicio de si el término de búsqueda tiene el "significado" introducido (o deseado) o no. Un aparato de clasificación particularmente adaptado se describe en la Solicitud de Patente Europea 99108354.4, que se presentó por el solicitante de la presente solicitud el 28 de Abril de 1999 y se publicó como EP 1 049 030 A1. En particular cualesquiera detalles relativos al aparato de clasificación descritos o mencionados en este documento pueden tomarse de esta solicitud.
Sin embargo, también puede usarse cualquier otro aparato de clasificación que es capaz de evaluar si los documentos de texto pertenecen a una cierta categoría o no y también que se puede entrenar. Por supuesto, en primer lugar el aparato de clasificación tiene que entrenarse usando cierta muestra de entrenamiento, y después de esto, los documentos base encontrados de nuevo pueden introducirse en el aparato de clasificación y evaluarse por lo tanto, para ver si el término de búsqueda tiene un cierto "significado" o no.
Debería observarse de nuevo que una descripción detallada del proceso de extracción de elementos a partir de documentos de texto que tienen un "significado" deseado se describe en el documento EP 1 128 278 A1 mencionado anteriormente. También se describen en este documento las particularidades concernientes a cómo se representa el área de alrededor de un elemento candidato por medio de un documento de disposición que se suministra a continuación a un aparato de clasificación ejercitable para juzgar si el elemento candidato realmente tiene el "significado" deseado.
Una realización adicional de la presente invención que se refiere a la generación automática de cualquier índice se explica ahora en conexión con la Fig. 3. En la operación 300 el cierto "significado" que los elementos de los documentos base debería tener se definen o seleccionan, como ya se ha explicado anteriormente.
A continuación, como ya se ha explicado también, para los elementos a comprobar, se genera el documento de texto (o documento de disposición).
Este documento de texto puede introducirse a continuación a un aparato de clasificación ya entrenado en la operación 320. Este aparato de clasificación en la operación 330 comprueba a continuación si los elementos a comprobar tienen el cierto "significado" definido o seleccionado.
Si la evaluación da como resultado un "si", a continuación en la operación 340 se usa el elemento evaluado de este modo para construir un índice junto con el significado definido o seleccionado.
Si la respuesta en la operación 330 es un "no", a continuación en la operación 350 los elementos comprobados se descartan o, en otras palabras no se usan para construir el índice.
Usando el proceso ilustrado en la Fig. 3, puede realizarse una indexación automática de documentos.
Esto puede hacerse de varias formas. Los elementos a comprobar podrían ser todos los elementos que están contenidos en los documentos base individuales. Para cada uno de los elementos individuales, podría comprobarse a continuación, por ejemplo, si este elemento es una "fecha de factura" o no, por ejemplo generando un documento de disposición correspondiente, y a continuación evaluando este documento de disposición a través de un aparato de clasificación.
Es fácilmente evidente, que este enfoque es más bien consumidor de tiempo y potencia de cálculo, por lo tanto, la selección de los elementos a comprobar podría hacerse de un modo algo inteligente. Por ejemplo, podrían comprobarse sólo los elementos que coinciden con un cierto criterio de formato. Tal criterio de orden puede ser una compilación de los formatos bien conocidos que puede asumir una fecha, y comprobarse los elementos para ver si coinciden con el criterio de formato y sólo se realiza la comprobación final en el caso de cartas si el elemento seleccionado de este modo (que puede asumirse que es una "fecha") realmente es una "fecha de factura" o no.
Otro enfoque podría generar automáticamente los términos de búsqueda que a continuación se buscan en los documentos base.
Por ejemplo, podría seleccionarse un cierto intervalo de fechas (por ejemplo, desde el 1 de Enero de 2000 al 1 de Enero de 2001), y a continuación se buscan entonces todas las fechas que se encierran entre las mismas, en otras palabras, se aplican como términos de búsqueda para la pila de documentos base.
Para los términos de búsqueda en los que se encontrará una coincidencia, lo que significa que se encuentra un documento que contiene un término de búsqueda correspondiente, el documento de disposición se genera a continuación y se comprueba si el término de búsqueda tiene el cierto "significado" (en este caso: fecha de factura). Si es así, a continuación como ya se ha explicado anteriormente el término de búsqueda puede usarse para construir un índice.
Con este enfoque, no todos los elementos en los documentos base tiene que comprobarse, sin más bien sólo los elementos para los cuales la búsqueda ha suministrado una coincidencia.
El enfoque que es realmente más eficaz en términos de la potencia de cálculo necesaria puede depender de circunstancias individuales.
Debería estar claro que los ejemplos anteriores sólo son ejemplos ilustrativos, y que por supuesto el método explicado hasta ahora también puede aplicarse a cualesquiera otros "significados" que debería tener cierto término o elemento tal como por ejemplo un nombre, un nombre de calle, un nombre de familia, un nombre de pila, un nombre de ciudad, o cualquier otro.
El significado más general que podría tener cualquier elemento con respecto a cierto documento en el que está contenido podría ser que el elemento que "describe" justo de alguna manera el documento en el que está contenido. Por ejemplo, el término "factura" podría estar contenido en una factura, además, justo describe que el documento correspondiente realmente es una factura. Tales elementos que describen el contenido completo de un documento por supuesto puede usarse para construir un índice.
En una realización adicional el entrenamiento del aparato de clasificación se realiza de forma semiautomática. Por ejemplo un usuario identifica para cada uno de un conjunto de documentos los elementos que tienen el cierto "significado" deseado tal como por ejemplo, el número de factura. En base a esta selección introducida por el usuario se genera a continuación el documento de disposición que puede usarse como entrada de entrenamiento para el entrenamiento del aparato de clasificación. De este modo varios documentos de disposición que representan áreas de alrededor de los elementos que son números de facturas se introducen al aparato de clasificación y por lo tanto el aparato de clasificación se entrena ("aprende") para reconocer los elementos que son números de factura y a distinguirlos de los otros elementos que no tienen este significado.
En una realización adicional tal procedimiento de entrenamiento puede ejecutarse en un modo totalmente automático. Asumamos que hay un conjunto de documentos (por ejemplo desde cualquiera de las bases de datos ya existentes) que ya están almacenados, evaluados y clasificados en la forma de una base de datos relacional que tiene una columna "número de factura" en el cual para cada uno de los documentos ya está almacenado el número de factura. Entonces no hay necesidad de identificar manualmente el número de factura mediante el usuario sino que más bien la información desde la base de datos puede usarse para generar la entrada de entrenamiento. La base de datos proporciona el número de factura para cada uno de los documentos, este número puede buscarse a continuación en el propio documento y después de que se ha localizado en base al área de alrededor que rodea al número de factura, se genera el documento de disposición. Este proceso se puede realizar para cada uno de los documentos de la base de datos y a continuación da como resultado un gran conjunto de documentos de disposición que pueden usarse como ejemplos de entrenamiento para entrenar al aparato de clasificación. Por lo tanto puede realizarse un entrenamiento totalmente automático sin necesidad de identificar elementos por el usuario.
Debería estar claro para cualquier especialista en la técnica que este procedimiento puede realizarse no sólo para "números de factura" sino para cualesquiera otros elementos que tienen un cierto "significado" y que son ya conocidos. Este conocimiento acerca de los propios elementos y su "significado" no necesita venir de una base de datos, también puede estar almacenada por ejemplo en una tabla de una hoja de cálculo, o puede incluso estar escrita en papel en la forma de una tabla que a continuación puede escanearse. No importa desde donde viene el conocimiento acerca de los propios elementos y su "significado", siempre que exista y pueda utilizarse para automatizar el proceso de entrenamiento del aparato de clasificación en base a este conocimiento.
Aunque la presente invención se ha descrito anteriormente en este documento por medio de realizaciones de ejemplo, será fácilmente evidente para el lector experto que pueden realizarse modificaciones sin apartarse del alcance de la invención como se define en las reivindicaciones adjuntas.
Claims (9)
- REIVINDICACIONES1. Un método para recuperar en base a un término de búsqueda junto con una cierta categoría a la que pertenece el término de búsqueda, a partir de un conjunto de documentos base, los documentos base que contienen dicho término de búsqueda y en los que dicho cierto término de búsqueda pertenece a dicha cierta categoría para posibilitar la construcción de un índice sobre dichos documentos recuperados, comprendiendo dicho método:
- -
- buscar (110) en los documentos base de entre dicho conjunto de documentos base los que contienen dicho cierto término de búsqueda; -evaluar (120) los documentos base encontrados para ver si dicho término de búsqueda contenido en dichos documentos base encontrados, pertenecen, respectivamente a dicha cierta categoría o no, comprendiendo dicha evaluación:
- -
- generar (200) un documento de texto para representar los elementos en el documento base encontrado alrededor del término de búsqueda y los elementos correspondientes a la posición absoluta o relativa con respecto a dicho término de búsqueda, codificando los elementos de dicho documento de texto, dichas posiciones absolutas o relativas de dichos elementos de alrededor. -introducir (210) dicho documento de texto en un aparato de clasificación ejercitable, que se ha entrenado para reconocer si dicho término de búsqueda en un documento de texto introducido, pertenece a cierta categoría o no, mientras que dicho entrenamiento se ha realizado en base a una muestra de entrenamiento de documentos de texto que se han generado para documentos de texto en los que el término de búsqueda rodeado por los elementos de alrededor pertenecen a dicha cierta categoría; y -clasificar dicho documento de texto introducido para juzgar (220) si dicho término de búsqueda pertenece a dicha cierta categoría introducida o no, e
- -
- indexar una pluralidad de dichos documentos base usando dicho término de búsqueda y dicha categoría correspondiente para construir un índice para dichos documentos base.
-
- 2.
- El método de la reivindicación 1, en el que los elementos de dicho documento de texto son codificaciones de dichas posiciones absolutas o relativas de dichos elementos de alrededor por las correspondientes cadenas de caracteres de texto.
-
- 3.
- El método de la reivindicación 1, que comprende además:
-repetir dichas etapas de búsqueda, entrada y clasificación e indexación para una pluralidad de términos de búsqueda, generándose dichos términos de búsqueda automáticamente de acuerdo con una norma predefinida. -
- 4.
- El método de una de las reivindicaciones de 1 a 3, en el que dicha búsqueda de dichos documentos base comprende una búsqueda asociativa; y/o una búsqueda difusa en base a dicho término de búsqueda.
-
- 5.
- El método de la reivindicación 1, que comprende además:
-comprobar todos los términos de búsqueda de dichos documentos base, o -comprobar sólo los términos de búsqueda de dichos documentos base que coinciden con uno o más criterios predefinidos. -
- 6.
- El método de reivindicaciones 1 ó 5, que comprende además
-generar una base de datos relacional a partir del término de búsqueda del índice y su categoría correspondiente. -
- 7.
- El método de acuerdo con una de las reivindicaciones anteriores de 1 a 6, que comprende el entrenamiento del aparato de clasificación, comprendiendo dicho entrenamiento:
a) buscar los documentos base en los que el término de búsqueda pertenece a cierta categoría; b) seleccionar dicho término de búsqueda por el usuario;-repetir las operaciones a) y b) hasta que se ha seleccionado el conjunto suficiente de documentos base para generar una muestra de entrenamiento: -generar los documentos de texto para los documentos base respectivos; -usar dichos documentos de texto generados como un conjunto de entrenamiento para entrenar dicho aparato de clasificación corriendo dicho aparato de clasificación en el modo de entrenamiento. -
- 8.
- El método de acuerdo con una de las reivindicaciones anteriores de 1 a 6, que comprende el entrenamiento del aparato de clasificación, comprendiendo dicho entrenamiento:
-usar un conjunto de documentos base para los cuales los términos de búsqueda que pertenecen a la categoría predefinida deseada son ya conocidos para generar automáticamente documentos de texto como muestras de entrenamiento para entrenar dicho aparato de clasificación. -
- 9.
- Un programa de ordenador que comprende un código de programa de ordenador para posibilitar que un ordenador realice un método de acuerdo con una de las reivindicaciones anteriores de 1 a 8 cuando dicho programa se corre sobre un ordenador.
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| EP01120429A EP1288792B1 (en) | 2001-08-27 | 2001-08-27 | A method for automatically indexing documents |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| ES2375403T3 true ES2375403T3 (es) | 2012-02-29 |
Family
ID=8178421
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| ES01120429T Expired - Lifetime ES2375403T3 (es) | 2001-08-27 | 2001-08-27 | Un método para la indexación automática de documentos. |
Country Status (10)
| Country | Link |
|---|---|
| US (2) | US8015198B2 (es) |
| EP (1) | EP1288792B1 (es) |
| JP (1) | JP4860903B2 (es) |
| AT (1) | ATE537507T1 (es) |
| AU (3) | AU2002331728B2 (es) |
| CA (2) | CA2776891C (es) |
| DK (1) | DK1288792T3 (es) |
| ES (1) | ES2375403T3 (es) |
| PT (1) | PT1288792E (es) |
| WO (1) | WO2003019524A1 (es) |
Families Citing this family (22)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| EP1049030A1 (en) | 1999-04-28 | 2000-11-02 | SER Systeme AG Produkte und Anwendungen der Datenverarbeitung | Classification method and apparatus |
| DE60005293T2 (de) * | 2000-02-23 | 2004-07-01 | Ser Solutions Inc. | Methode und Vorrichtung zur Verarbeitung elektronischer Dokumente |
| US9177828B2 (en) | 2011-02-10 | 2015-11-03 | Micron Technology, Inc. | External gettering method and device |
| EP1182577A1 (en) | 2000-08-18 | 2002-02-27 | SER Systeme AG Produkte und Anwendungen der Datenverarbeitung | Associative memory |
| ES2375403T3 (es) | 2001-08-27 | 2012-02-29 | BDGB Enterprise Software Sàrl | Un método para la indexación automática de documentos. |
| US7860844B2 (en) * | 2005-07-15 | 2010-12-28 | Indxit Systems Inc. | System and methods for data indexing and processing |
| US7853595B2 (en) * | 2007-01-30 | 2010-12-14 | The Boeing Company | Method and apparatus for creating a tool for generating an index for a document |
| US9213756B2 (en) | 2009-11-02 | 2015-12-15 | Harry Urbschat | System and method of using dynamic variance networks |
| US9158833B2 (en) | 2009-11-02 | 2015-10-13 | Harry Urbschat | System and method for obtaining document information |
| US9152883B2 (en) | 2009-11-02 | 2015-10-06 | Harry Urbschat | System and method for increasing the accuracy of optical character recognition (OCR) |
| US8321357B2 (en) | 2009-09-30 | 2012-11-27 | Lapir Gennady | Method and system for extraction |
| CA2840229A1 (en) | 2011-07-11 | 2013-01-17 | Paper Software LLC | System and method for processing document |
| WO2013009904A1 (en) | 2011-07-11 | 2013-01-17 | Paper Software LLC | System and method for processing document |
| US10452764B2 (en) * | 2011-07-11 | 2019-10-22 | Paper Software LLC | System and method for searching a document |
| AU2012281160B2 (en) | 2011-07-11 | 2017-09-21 | Paper Software LLC | System and method for processing document |
| US8996350B1 (en) | 2011-11-02 | 2015-03-31 | Dub Software Group, Inc. | System and method for automatic document management |
| US9002102B2 (en) * | 2012-12-21 | 2015-04-07 | Hewlett-Packard Development Company, L.P. | Generating training documents |
| US9922037B2 (en) * | 2015-01-30 | 2018-03-20 | Splunk Inc. | Index time, delimiter based extractions and previewing for use in indexing |
| US10839149B2 (en) | 2016-02-01 | 2020-11-17 | Microsoft Technology Licensing, Llc. | Generating templates from user's past documents |
| US9922022B2 (en) * | 2016-02-01 | 2018-03-20 | Microsoft Technology Licensing, Llc. | Automatic template generation based on previous documents |
| US11237847B1 (en) | 2019-12-19 | 2022-02-01 | Wells Fargo Bank, N.A. | Automated standards-based computing system reconfiguration |
| US11502905B1 (en) | 2019-12-19 | 2022-11-15 | Wells Fargo Bank, N.A. | Computing infrastructure standards assay |
Family Cites Families (116)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US4731861A (en) | 1983-08-26 | 1988-03-15 | Texas Instruments Incorporated | Method of optical character recognition |
| JPS61204733A (ja) | 1985-03-07 | 1986-09-10 | Oki Electric Ind Co Ltd | 視野管理システム |
| JPS61217863A (ja) | 1985-03-23 | 1986-09-27 | Brother Ind Ltd | 電子辞書 |
| AU595378B2 (en) | 1986-08-22 | 1990-03-29 | Commonwealth Scientific And Industrial Research Organisation | Content-addressable memory system with active memory circuit |
| US4864501A (en) | 1987-10-07 | 1989-09-05 | Houghton Mifflin Company | Word annotation system |
| WO1989004013A1 (en) | 1987-10-09 | 1989-05-05 | Nucleus International Corporation | A relational database representation with relational database operation capability |
| EP0320266A3 (en) | 1987-12-11 | 1992-03-11 | Hewlett-Packard Company | View composition in a data base management system |
| JPH01277977A (ja) | 1988-04-28 | 1989-11-08 | Nec Corp | パタン照合装置 |
| JPH02186484A (ja) | 1989-01-12 | 1990-07-20 | Ricoh Co Ltd | 認識辞書の学習方式 |
| US5201047A (en) | 1989-12-21 | 1993-04-06 | International Business Machines Corporation | Attribute-based classification and retrieval system |
| US5191525A (en) | 1990-01-16 | 1993-03-02 | Digital Image Systems, Corporation | System and method for extraction of data from documents for subsequent processing |
| US5344132A (en) | 1990-01-16 | 1994-09-06 | Digital Image Systems | Image based document processing and information management system and apparatus |
| FR2660085A1 (fr) | 1990-03-20 | 1991-09-27 | Philips Electronique Lab | Dispositif de traitement de donnees et procede pour selectionner des mots de donnees contenus dans un dictionnaire. |
| JP3329806B2 (ja) | 1990-11-09 | 2002-09-30 | 株式会社日立製作所 | ニューラルネット構築装置 |
| JPH04123283U (ja) | 1991-04-19 | 1992-11-06 | 鐘紡株式会社 | 編立機の不使用糸処理装置 |
| US5278980A (en) * | 1991-08-16 | 1994-01-11 | Xerox Corporation | Iterative technique for phrase query formation and an information retrieval system employing same |
| US5245672A (en) | 1992-03-09 | 1993-09-14 | The United States Of America As Represented By The Secretary Of Commerce | Object/anti-object neural network segmentation |
| US5377348A (en) | 1992-06-04 | 1994-12-27 | International Business Machines Corporation | System for searching a data base by creating a marking matrix in which two dimensional patterns control the search and selection |
| US5491758A (en) | 1993-01-27 | 1996-02-13 | International Business Machines Corporation | Automatic handwriting recognition using both static and dynamic parameters |
| US5649068A (en) | 1993-07-27 | 1997-07-15 | Lucent Technologies Inc. | Pattern recognition system using support vectors |
| US5619709A (en) | 1993-09-20 | 1997-04-08 | Hnc, Inc. | System and method of context vector generation and retrieval |
| GB2281997B (en) | 1993-09-20 | 1997-10-15 | Ricoh Kk | Method and apparatus for improving a text image by using character regeneration |
| US5537491A (en) | 1993-11-24 | 1996-07-16 | Xerox Corporation | Analyzing an image or other data to obtain a stable number of groups |
| US5742806A (en) | 1994-01-31 | 1998-04-21 | Sun Microsystems, Inc. | Apparatus and method for decomposing database queries for database management system including multiprocessor digital data processing system |
| NZ248751A (en) | 1994-03-23 | 1997-11-24 | Ryan John Kevin | Text analysis and coding |
| JPH07271916A (ja) | 1994-03-31 | 1995-10-20 | Suzuki Motor Corp | 学習パターン生成装置及びこれを用いた文字認識装置 |
| US5671333A (en) | 1994-04-07 | 1997-09-23 | Lucent Technologies Inc. | Training apparatus and method |
| US5689620A (en) | 1995-04-28 | 1997-11-18 | Xerox Corporation | Automatic training of character templates using a transcription and a two-dimensional image source model |
| US5956419A (en) | 1995-04-28 | 1999-09-21 | Xerox Corporation | Unsupervised training of character templates using unsegmented samples |
| US5675710A (en) | 1995-06-07 | 1997-10-07 | Lucent Technologies, Inc. | Method and apparatus for training a text classifier |
| JPH096799A (ja) | 1995-06-19 | 1997-01-10 | Sharp Corp | 文書分類装置及び文書検索装置 |
| AU6849196A (en) | 1995-08-16 | 1997-03-19 | Syracuse University | Multilingual document retrieval system and method using semantic vector matching |
| US5889886A (en) | 1995-11-28 | 1999-03-30 | Xerox Corporation | Method and apparatus for detecting running text in an image |
| US6009196A (en) | 1995-11-28 | 1999-12-28 | Xerox Corporation | Method for classifying non-running text in an image |
| US6076088A (en) | 1996-02-09 | 2000-06-13 | Paik; Woojin | Information extraction system and method using concept relation concept (CRC) triples |
| US5864855A (en) | 1996-02-26 | 1999-01-26 | The United States Of America As Represented By The Secretary Of The Army | Parallel document clustering process |
| JP2987099B2 (ja) | 1996-03-27 | 1999-12-06 | 株式会社日立国際ビジネス | 文書作成支援システム及び用語辞書 |
| US5787201A (en) | 1996-04-09 | 1998-07-28 | The United States Of America As Represented By The Secretary Of The Navy | High order fractal feature extraction for classification of objects in images |
| US5937084A (en) | 1996-05-22 | 1999-08-10 | Ncr Corporation | Knowledge-based document analysis system |
| US6101515A (en) * | 1996-05-31 | 2000-08-08 | Oracle Corporation | Learning system for classification of terminology |
| US5778362A (en) | 1996-06-21 | 1998-07-07 | Kdl Technologies Limted | Method and system for revealing information structures in collections of data items |
| DE19627472A1 (de) | 1996-07-08 | 1998-01-15 | Ser Systeme Ag | Datenbanksystem |
| US5918223A (en) | 1996-07-22 | 1999-06-29 | Muscle Fish | Method and article of manufacture for content-based analysis, storage, retrieval, and segmentation of audio information |
| US5745889A (en) | 1996-08-09 | 1998-04-28 | Digital Equipment Corporation | Method for parsing information of databases records using word-location pairs and metaword-location pairs |
| WO1998012616A2 (en) | 1996-09-23 | 1998-03-26 | Lowrie Mcintosh | Defining a uniform subject classification system incorporating document management/records retention functions |
| US6275610B1 (en) | 1996-10-16 | 2001-08-14 | Convey Corporation | File structure for scanned documents |
| US6327387B1 (en) | 1996-12-27 | 2001-12-04 | Fujitsu Limited | Apparatus and method for extracting management information from image |
| DE19715723A1 (de) | 1997-04-15 | 1998-11-12 | Dci Datenbank Fuer Wirtschafts | Array-Verfahren |
| US6353840B2 (en) | 1997-08-15 | 2002-03-05 | Ricoh Company, Ltd. | User-defined search template for extracting information from documents |
| JPH11184894A (ja) * | 1997-10-07 | 1999-07-09 | Ricoh Co Ltd | 論理要素抽出方法および記録媒体 |
| US5999664A (en) | 1997-11-14 | 1999-12-07 | Xerox Corporation | System for searching a corpus of document images by user specified document layout components |
| US6665841B1 (en) | 1997-11-14 | 2003-12-16 | Xerox Corporation | Transmission of subsets of layout objects at different resolutions |
| US5987457A (en) | 1997-11-25 | 1999-11-16 | Acceleration Software International Corporation | Query refinement method for searching documents |
| JP4116688B2 (ja) | 1997-12-22 | 2008-07-09 | 株式会社日本デジタル研究所 | 辞書学習方法および文字認識装置 |
| US6289342B1 (en) | 1998-01-05 | 2001-09-11 | Nec Research Institute, Inc. | Autonomous citation indexing and literature browsing using citation context |
| US6115708A (en) | 1998-03-04 | 2000-09-05 | Microsoft Corporation | Method for refining the initial conditions for clustering with applications to small and large database clustering |
| US6161130A (en) | 1998-06-23 | 2000-12-12 | Microsoft Corporation | Technique which utilizes a probabilistic classifier to detect "junk" e-mail by automatically updating a training and re-training the classifier based on the updated training set |
| US6192360B1 (en) | 1998-06-23 | 2001-02-20 | Microsoft Corporation | Methods and apparatus for classifying text and for building a text classifier |
| US6243713B1 (en) | 1998-08-24 | 2001-06-05 | Excalibur Technologies Corp. | Multimedia document retrieval by application of multimedia queries to a unified index of multimedia data for a plurality of multimedia data types |
| US6324551B1 (en) | 1998-08-31 | 2001-11-27 | Xerox Corporation | Self-contained document management based on document properties |
| US6212532B1 (en) * | 1998-10-22 | 2001-04-03 | International Business Machines Corporation | Text categorization toolkit |
| US6574632B2 (en) * | 1998-11-18 | 2003-06-03 | Harris Corporation | Multiple engine information retrieval and visualization system |
| JP2000155803A (ja) | 1998-11-20 | 2000-06-06 | Nec Corp | 文字読取方法および光学式文字読取装置 |
| US6189002B1 (en) * | 1998-12-14 | 2001-02-13 | Dolphin Search | Process and system for retrieval of documents using context-relevant semantic profiles |
| US6622134B1 (en) | 1999-01-05 | 2003-09-16 | International Business Machines Corporation | Method of constructing data classifiers and classifiers constructed according to the method |
| DE60042165D1 (de) | 1999-01-13 | 2009-06-18 | Computer Ass Think Inc | Unterschriften-erkennungs-system und -verfahren |
| US6477551B1 (en) | 1999-02-16 | 2002-11-05 | International Business Machines Corporation | Interactive electronic messaging system |
| EP1049030A1 (en) | 1999-04-28 | 2000-11-02 | SER Systeme AG Produkte und Anwendungen der Datenverarbeitung | Classification method and apparatus |
| US6629097B1 (en) * | 1999-04-28 | 2003-09-30 | Douglas K. Keith | Displaying implicit associations among items in loosely-structured data sets |
| US6611825B1 (en) | 1999-06-09 | 2003-08-26 | The Boeing Company | Method and system for text mining using multidimensional subspaces |
| US6501855B1 (en) | 1999-07-20 | 2002-12-31 | Parascript, Llc | Manual-search restriction on documents not having an ASCII index |
| US6785810B1 (en) | 1999-08-31 | 2004-08-31 | Espoc, Inc. | System and method for providing secure transmission, search, and storage of data |
| US6453315B1 (en) * | 1999-09-22 | 2002-09-17 | Applied Semantics, Inc. | Meaning-based information organization and retrieval |
| US6990238B1 (en) | 1999-09-30 | 2006-01-24 | Battelle Memorial Institute | Data processing, analysis, and visualization system for use with disparate data types |
| US6188010B1 (en) | 1999-10-29 | 2001-02-13 | Sony Corporation | Music search by melody input |
| DE19952769B4 (de) | 1999-11-02 | 2008-07-17 | Sap Ag | Suchmaschine und Verfahren zum Abrufen von Informationen mit Abfragen in natürlicher Sprache |
| DE60005293T2 (de) | 2000-02-23 | 2004-07-01 | Ser Solutions Inc. | Methode und Vorrichtung zur Verarbeitung elektronischer Dokumente |
| US7149347B1 (en) | 2000-03-02 | 2006-12-12 | Science Applications International Corporation | Machine learning of document templates for data extraction |
| WO2001067207A2 (en) | 2000-03-09 | 2001-09-13 | The Web Access, Inc. | Method and apparatus for organizing data by overlaying a searchable database with a directory tree structure |
| US6741724B1 (en) | 2000-03-24 | 2004-05-25 | Siemens Dematic Postal Automation, L.P. | Method and system for form processing |
| US20070033252A1 (en) | 2000-03-30 | 2007-02-08 | Combest Ricky F | Dynamic virtual network and method |
| JP2001318948A (ja) | 2000-05-09 | 2001-11-16 | Hitachi Ltd | 文書検索方法及び装置並びにその処理プログラムを記憶した媒体 |
| US7028250B2 (en) | 2000-05-25 | 2006-04-11 | Kanisa, Inc. | System and method for automatically classifying text |
| US6895552B1 (en) | 2000-05-31 | 2005-05-17 | Ricoh Co., Ltd. | Method and an apparatus for visual summarization of documents |
| US6944340B1 (en) | 2000-08-07 | 2005-09-13 | Canon Kabushiki Kaisha | Method and apparatus for efficient determination of recognition parameters |
| EP1182577A1 (en) | 2000-08-18 | 2002-02-27 | SER Systeme AG Produkte und Anwendungen der Datenverarbeitung | Associative memory |
| US6766316B2 (en) * | 2001-01-18 | 2004-07-20 | Science Applications International Corporation | Method and system of ranking and clustering for document indexing and retrieval |
| US20020156816A1 (en) | 2001-02-13 | 2002-10-24 | Mark Kantrowitz | Method and apparatus for learning from user self-corrections, revisions and modifications |
| US6732090B2 (en) * | 2001-08-13 | 2004-05-04 | Xerox Corporation | Meta-document management system with user definable personalities |
| ES2375403T3 (es) | 2001-08-27 | 2012-02-29 | BDGB Enterprise Software Sàrl | Un método para la indexación automática de documentos. |
| EP1315096B1 (en) | 2001-11-21 | 2012-07-18 | Werner Voegeli | Method and apparatus for retrieving relevant information |
| JP4006239B2 (ja) | 2002-02-21 | 2007-11-14 | 株式会社日立製作所 | 文書の検索方法および検索システム |
| GB0308413D0 (en) | 2003-04-11 | 2003-05-21 | Enseal Systems Ltd | Verification of authenticity of check data |
| JP4366108B2 (ja) | 2003-04-30 | 2009-11-18 | キヤノン株式会社 | 文書検索装置、文書検索方法及びコンピュータプログラム |
| JP2005038077A (ja) | 2003-07-17 | 2005-02-10 | Hitachi Ltd | 筆記データ入力装置 |
| JP2005043977A (ja) | 2003-07-23 | 2005-02-17 | Hitachi Ltd | 文書間の類似度算出方法および装置 |
| US7805446B2 (en) | 2004-10-12 | 2010-09-28 | Ut-Battelle Llc | Agent-based method for distributed clustering of textual information |
| US20060142993A1 (en) | 2004-12-28 | 2006-06-29 | Sony Corporation | System and method for utilizing distance measures to perform text classification |
| US8570586B2 (en) | 2005-05-02 | 2013-10-29 | Digimarc Corporation | Active images through digital watermarking |
| US7865018B2 (en) | 2005-06-02 | 2011-01-04 | Microsoft Corporation | Personalized implicit and explicit character shape adaptation and recognition |
| US7949714B1 (en) * | 2005-12-05 | 2011-05-24 | Google Inc. | System and method for targeting advertisements or other information using user geographical information |
| US7472121B2 (en) | 2005-12-15 | 2008-12-30 | International Business Machines Corporation | Document comparison using multiple similarity measures |
| US8090743B2 (en) | 2006-04-13 | 2012-01-03 | Lg Electronics Inc. | Document management system and method |
| WO2007149004A1 (en) | 2006-06-13 | 2007-12-27 | Freescale Semiconductor, Inc. | Methods and apparatus for simulating distributed effects |
| US7945627B1 (en) | 2006-09-28 | 2011-05-17 | Bitdefender IPR Management Ltd. | Layout-based electronic communication filtering systems and methods |
| US7610281B2 (en) | 2006-11-29 | 2009-10-27 | Oracle International Corp. | Efficient computation of document similarity |
| US7720721B1 (en) | 2006-12-28 | 2010-05-18 | Amazon Technologies, Inc. | Method and system for analyzing user interaction to identify documents associated with dissimilar items that may contain synonyms |
| WO2008097194A1 (en) | 2007-02-09 | 2008-08-14 | Agency For Science, Technology And Research | Keyword classification and determination in language modelling |
| US8280877B2 (en) | 2007-02-22 | 2012-10-02 | Microsoft Corporation | Diverse topic phrase extraction |
| US20080212877A1 (en) | 2007-03-04 | 2008-09-04 | John Franco | High speed error detection and correction for character recognition |
| US8049921B2 (en) | 2007-04-16 | 2011-11-01 | Bottomline Technologies (De) Inc. | System and method for transferring invoice data output of a print job source to an automated data processing system |
| US20090228777A1 (en) | 2007-08-17 | 2009-09-10 | Accupatent, Inc. | System and Method for Search |
| US20090125529A1 (en) | 2007-11-12 | 2009-05-14 | Vydiswaran V G Vinod | Extracting information based on document structure and characteristics of attributes |
| AU2008255269A1 (en) | 2008-02-05 | 2009-08-20 | Nuix Pty. Ltd. | Document comparison method and apparatus |
| JP5402099B2 (ja) | 2008-03-06 | 2014-01-29 | 株式会社リコー | 情報処理システム、情報処理装置、情報処理方法およびプログラム |
| JP4538507B2 (ja) | 2008-05-02 | 2010-09-08 | シャープ株式会社 | 画像照合方法、画像照合装置、画像データ出力処理装置、プログラム及び記憶媒体 |
-
2001
- 2001-08-27 ES ES01120429T patent/ES2375403T3/es not_active Expired - Lifetime
- 2001-08-27 DK DK01120429.4T patent/DK1288792T3/da active
- 2001-08-27 AT AT01120429T patent/ATE537507T1/de active
- 2001-08-27 PT PT01120429T patent/PT1288792E/pt unknown
- 2001-08-27 EP EP01120429A patent/EP1288792B1/en not_active Expired - Lifetime
-
2002
- 2002-08-27 JP JP2003522903A patent/JP4860903B2/ja not_active Expired - Lifetime
- 2002-08-27 AU AU2002331728A patent/AU2002331728B2/en not_active Expired
- 2002-08-27 CA CA2776891A patent/CA2776891C/en not_active Expired - Lifetime
- 2002-08-27 WO PCT/US2002/027132 patent/WO2003019524A1/en not_active Ceased
- 2002-08-27 CA CA2459182A patent/CA2459182C/en not_active Expired - Lifetime
-
2008
- 2008-04-21 US US12/106,450 patent/US8015198B2/en not_active Expired - Fee Related
- 2008-06-06 AU AU2008202535A patent/AU2008202535A1/en not_active Abandoned
-
2010
- 2010-12-09 AU AU2010249253A patent/AU2010249253B2/en not_active Expired
-
2011
- 2011-07-28 US US13/192,703 patent/US9141691B2/en not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| CA2459182C (en) | 2012-07-17 |
| AU2002331728B2 (en) | 2008-03-06 |
| JP2005501321A (ja) | 2005-01-13 |
| ATE537507T1 (de) | 2011-12-15 |
| US9141691B2 (en) | 2015-09-22 |
| DK1288792T3 (da) | 2012-04-02 |
| WO2003019524A1 (en) | 2003-03-06 |
| US20120078934A1 (en) | 2012-03-29 |
| CA2459182A1 (en) | 2003-03-06 |
| US20090307202A1 (en) | 2009-12-10 |
| CA2776891C (en) | 2015-11-17 |
| PT1288792E (pt) | 2012-02-29 |
| AU2010249253B2 (en) | 2012-09-20 |
| AU2008202535A1 (en) | 2008-06-26 |
| EP1288792B1 (en) | 2011-12-14 |
| CA2776891A1 (en) | 2003-03-06 |
| US8015198B2 (en) | 2011-09-06 |
| AU2010249253A1 (en) | 2011-01-06 |
| EP1288792A1 (en) | 2003-03-05 |
| JP4860903B2 (ja) | 2012-01-25 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| ES2375403T3 (es) | Un método para la indexación automática de documentos. | |
| US7814102B2 (en) | Method and system for linking documents with multiple topics to related documents | |
| CA2750609C (en) | Methods and systems for matching records and normalizing names | |
| US9501455B2 (en) | Systems and methods for processing data | |
| US20040049499A1 (en) | Document retrieval system and question answering system | |
| CN111522901A (zh) | 文本中地址信息的处理方法及装置 | |
| AU2002331728A1 (en) | A method for automatically indexing documents | |
| US7058623B2 (en) | Computer automated system for management of engineering drawings | |
| KR20070102034A (ko) | 문서검색 결과를 이용한 군집화 시스템 및 그 방법 | |
| CN108959566A (zh) | 一种基于Stacking集成学习的医疗文本去隐私方法和系统 | |
| TWI396990B (zh) | 引用文獻記錄擷取系統、方法及程式產品 | |
| JP2008077634A (ja) | モバイル機器におけるフォーム自動記入方法および装置 | |
| CN120179831A (zh) | 基于大语言模型的有害知识图谱构建与有害信息识别方法 | |
| Souza et al. | ARCTIC: metadata extraction from scientific papers in pdf using two-layer CRF | |
| JP5894273B2 (ja) | 文書関連付け方法および文書検索方法、文書関連付け装置および文書検索装置、並びにそのためのプログラム | |
| Dejean | Extracting structured data from unstructured document with incomplete resources | |
| AU2012258320B2 (en) | A method for automatically indexing documents | |
| CN118760758B (zh) | 一种智慧教学的标签匹配方法及系统 | |
| CN119046509B (zh) | 一种情报数据的融合处理方法及平台 | |
| JP2008065468A (ja) | テキスト多重分類装置、テキストを多重分類する方法、プログラムおよび記憶媒体 | |
| JP3719089B2 (ja) | 文書処理装置 | |
| CN112101026A (zh) | 语料样本集合的构建方法、计算设备及计算机存储介质 | |
| CN114332875A (zh) | 一种笔记卡片结构化方法 | |
| Collins et al. | Automated data verification in a format-free environment |