ES2375403T3 - Un método para la indexación automática de documentos. - Google Patents

Un método para la indexación automática de documentos. Download PDF

Info

Publication number
ES2375403T3
ES2375403T3 ES01120429T ES01120429T ES2375403T3 ES 2375403 T3 ES2375403 T3 ES 2375403T3 ES 01120429 T ES01120429 T ES 01120429T ES 01120429 T ES01120429 T ES 01120429T ES 2375403 T3 ES2375403 T3 ES 2375403T3
Authority
ES
Spain
Prior art keywords
documents
search term
search
elements
base
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
ES01120429T
Other languages
English (en)
Inventor
Alexander Goerke
Matthias Rabald
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BDGB Enterprise Software SARL
SER SYSTEMS AG
Original Assignee
BDGB Enterprise Software SARL
SER SYSTEMS AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BDGB Enterprise Software SARL, SER SYSTEMS AG filed Critical BDGB Enterprise Software SARL
Application granted granted Critical
Publication of ES2375403T3 publication Critical patent/ES2375403T3/es
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Mechanical Operated Clutches (AREA)

Abstract

Un método para recuperar en base a un término de búsqueda junto con una cierta categoría a la que pertenece el término de búsqueda, a partir de un conjunto de documentos base, los documentos base que contienen dicho término de búsqueda y en los que dicho cierto término de búsqueda pertenece a dicha cierta categoría para posibilitar la construcción de un índice sobre dichos documentos recuperados, comprendiendo dicho método: - buscar (110) en los documentos base de entre dicho conjunto de documentos base los que contienen dicho cierto término de búsqueda; - evaluar (120) los documentos base encontrados para ver si dicho término de búsqueda contenido en dichos documentos base encontrados, pertenecen, respectivamente a dicha cierta categoría o no, comprendiendo dicha evaluación: - generar (200) un documento de texto para representar los elementos en el documento base encontrado alrededor del término de búsqueda y los elementos correspondientes a la posición absoluta o relativa con respecto a dicho término de búsqueda, codificando los elementos de dicho documento de texto, dichas posiciones absolutas o relativas de dichos elementos de alrededor. - introducir (210) dicho documento de texto en un aparato de clasificación ejercitable, que se ha entrenado para reconocer si dicho término de búsqueda en un documento de texto introducido, pertenece a cierta categoría o no, mientras que dicho entrenamiento se ha realizado en base a una muestra de entrenamiento de documentos de texto que se han generado para documentos de texto en los que el término de búsqueda rodeado por los elementos de alrededor pertenecen a dicha cierta categoría; y - clasificar dicho documento de texto introducido para juzgar (220) si dicho término de búsqueda pertenece a dicha cierta categoría introducida o no, e - indexar una pluralidad de dichos documentos base usando dicho término de búsqueda y dicha categoría correspondiente para construir un índice para dichos documentos base.

Description

Un método para la indexación automática de documentos
Campo de la invención
La presente invención se refiere al procesamiento de documentos de texto, y en particular, a la indexación automática de documentos de texto.
Antecedentes de la invención
Un modo típico de estructurar grandes volúmenes de datos de modo que puedan accederse fácilmente es indexar los documentos. Esto significa que un documento o un grupo de documentos se referencia por un término de indexación. Una colección de tales términos de indexación forma entonces un índice. Esto se muestra en forma de ejemplo en la Fig. 4.
En la Fig. 4 los documentos de dirección 410, 420, 430 contienen datos de las direcciones sobre personas individuales. Los documentos pueden caracterizarse por los elementos individuales que contienen, uno de ellos es el nombre de familia de las personas a las que se refieren los documentos.
Esta información puede usarse a continuación para construir un índice 440 mostrado en la parte izquierda de la Fig.
4. Este índice contiene una lista de los nombres de la familia que están contenidos en los documentos, y cada uno de los elementos del índice se refiere a un documento individual como puede verse en la Fig. 4.
Este es un modo muy clásico y típico de organizar la información de un modo estructurado de modo que la información deseada o los documentos deseados que contienen un elemento de información buscado y deseado pueden recuperarse y accederse a partir de un gran volumen de documentos.
Los índices pueden construirse para varios elementos tales como el nombre de la familia, el nombre de pila, el nombre de la calle, etc. Lo que tienen en común los índices es que los elementos de un índice tiene todos en algún sentido el mismo "significado", tal como el "nombre de la familia", el "nombre de pila", o similares. Usando una terminología más rigurosa puede decirse que dichos índices pertenecen a una categoría común respectiva que está relacionada con un cierto significado para el ser humano. En lo siguiente, los términos "tener un cierto significado" y "pertenecer a una cierta categoría" se usan de forma sinónima.
Por lo tanto, los elementos individuales que se usan para construir un índice son de algún modo consistentes con respecto a la información que contienen cuando se ven desde un nivel más abstracto. En otras palabras, todos los elementos del índice tienen el mismo "significado".
Otro enfoque más general para el ordenamiento de documentos es caracterizar sólo uno o más documentos por un cierto término, y a continuación construir un índice a partir de los términos individuales usados de ese modo. En tal caso los elementos del índice no tienen que tener un "significado" consistente, aunque puede considerarse que tienen todos, el mismo significado, en el sentido de que cada uno de los elementos caracteriza o describe uno o más documentos a los que se refiere.
Después de que se ha construido un índice, puede usarse para preguntar y acceder al conjunto de documentos ordenados o estructurados por el índice construido de este modo. Puede introducirse directamente uno cualquiera de los términos de búsqueda, y si está contenido en el índice, a continuación se recuperan el documento o los documentos referenciados por el término del índice. Otra posibilidad es "navegar" por el índice, lo cual significa representar los elementos individuales del índice en algún orden (típicamente alfabético), como se muestra en el elemento 440 de la Fig. 4. Esto tiene la ventaja de que un usuario puede tener una visión rápida de qué elementos de índice se usan en total para organizar o "indexar" el conjunto de documentos.
Otro enfoque algo más sofisticado es usar una búsqueda llamada tolerante a fallos, lo que significa que se introduce un término de búsqueda y se recuperan los documentos en los que el valor del índice correspondiente es idéntico o al menos similar (en alguna medida, dependiendo del algoritmo de búsqueda tolerante a fallos utilizado) al termino de búsqueda.
En cualquier caso, la construcción de un índice es un trabajo muy difícil y tedioso, que es el trabajo preparatorio que tiene que hacerse para hacer factible el acceso a grandes conjuntos de documentos de un modo ordenado y significativo.
Los índices típicamente se crean "manualmente", al menos en el caso de documentos a indexar que están "sin estructurar" tal como los documentos de texto simples. Si los documentos a indexar están "estructurados", tal como en el caso de las tablas de bases de datos relacionales, entonces es relativamente fácil construir un índice. Sin embargo, si no se conoce el "significado" individual que tiene un elemento en un documento no estructurado,
entonces es extremadamente difícil y cansado seleccionar los elementos que pueden usarse para indexar este documento.
El documento "Extracción de información de HTML: aplicación de un enfoque general de aprendizaje de una máquina' de FREITAG D PROCEDIMIENTOS DE LA CONFERENCIA NACIONAL DECIMOQUINTA SOBRE INTELIGENCIA ARTIFICIAL (AAAI-98). DÉCIMA CONFERENCIA EN APLICACIONES INNOVADORAS DE INTELIGENCIA ARTIFICIAL, PROCEDIMIENTOS DE LA CONFERENCIA NACIONAL DECIMOQUINTA SOBRE INTELIGENCIA ARTIFICIAL, MADISON, WI, Estados Unidos, páginas 517-523, documento XP002197239 1998, Menlo Parck, CA, Estados Unidos, Prensa AAAI, Prensa MIT, Estados Unidos ISBN: 0-262-51098-7 desvela un método para realizar la extracción de información de páginas Web. La extracción de información se causa como un problema de aprendizaje de una máquina estándar y se describe la implementación de un aprendiz de relación de propósito general para la extracción de información.
En consecuencia, es altamente deseable mejorar el proceso de indexación de documentos.
Sumario de la invención
De acuerdo con la primera realización de la presente invención se proporciona un método para recuperar ciertos documentos a partir de un conjunto de documentos en base a un término de búsqueda introducido y en base también al "significado" correspondiente del término de búsqueda, como se define en la reivindicación 1. En primer lugar se buscan los documentos que contienen el término de búsqueda. A continuación, se evalúan los documentos encontrados (llamados documentos base) para ver si en esos documentos el término de búsqueda contenido en los mismos tiene un cierto significado. Esta evaluación comprende la generación de un documento (o disposición) de texto que representa el término de búsqueda y sus elementos circundantes y su correspondiente posición absoluta o relativa con respecto al término de búsqueda o dentro del documento base. Este documento de texto se introduce a continuación en un aparato de clasificación ejercitable que se ha entrenado para juzgar si el documento de texto introducido pertenece a una cierta categoría o no. Por lo tanto el juicio tiene que determinar si el término de búsqueda tiene el cierto "significado" deseado (es decir, si el documento de texto pertenece a la categoría entrenada) o si no lo tiene (el documento no pertenece a la categoría entrenada).
En base a este juicio puede comprobarse si en los documentos base encontrados los términos buscados tienen el cierto "significado" deseado.
Los términos de búsqueda y los significados correspondientes pueden usarse para construir un índice para los documentos base. Esto puede ser a continuación de utilidad para acceder a una gran reserva de documentos base en un modo ordenado.
De acuerdo con una realización particular dichas etapas de búsqueda, clasificación e indexación se repiten para una pluralidad de términos de búsqueda. Si esto se realiza para cada uno de los documentos base, a continuación puede determinarse para cada uno de los documentos, el valor individual correspondiente que tiene un cierto "significado" y que está contenido en este documento. Por ejemplo, para todos los documentos base de una pila de cartas puede determinarse o "extraerse" la fecha de envío y a continuación los elementos extraídos de este modo junto con su "significado" "fecha de envío" podrían usarse para formar un índice que referencia el conjunto de documentos base. Si esto se realiza para varios "significados" diferentes, tales como el destinatario, la dirección de origen, el número de referencia y así sucesivamente, a continuación podría generarse también una base de datos relacional que mapea el "contenido de información" del conjunto de documentos dentro de las tablas de la base de datos relacional.
De acuerdo con una realización adicional la búsqueda realizada puede comprender una búsqueda asociativa y/o una búsqueda difusa. Esto devolverá también documentos en los cuales los términos de búsqueda están mal escritos o que contienen cualesquiera otros errores de mecanografía.
El entrenamiento del aparato de clasificación puede realizarse seleccionando para el entrenamiento un conjunto de documentos cuyos elementos en los documentos respectivos tienen un cierto "significado", a continuación se generan los documentos de texto para los respectivos documentos base respectivos de la muestra de entrenamiento, y a continuación se usan los documentos de texto generados de este modo como un conjunto de entrenamiento para entrenar el aparato de clasificación funcionando el aparato de clasificación en el modo de entrenamiento.
Usando este enfoque, un aparato de clasificación usando sólo una pequeña muestra de los documentos de entrenamiento puede realmente "aprender" a evaluar si para ciertos documentos base, algunos elementos contenidos en el mismo tienen un cierto significado o no. Este "conocimiento" ejercitado de este modo puede usarse entonces más adelante para construir un índice en base a cierto "significado" que deberían tener los elementos del índice.
El proceso de entrenamiento puede hacerse semiautomáticamente o puede hacerse en otra realización de un modo completamente automatizado. Para el entrenamiento semiautomático un usuario tiene que identificar en los
documentos base los elementos que tienen el "significado" deseado que se va a aprender o a entrenar. Después de que tiene lugar la identificación se proporciona la muestra de entrenamiento y puede realizarse el entrenamiento.
Para realizar un entrenamiento totalmente automático puede usarse un conjunto de documentos (tal como los documentos de una base de datos que ya existe) para el cual los elementos que ya tienen el "significado" son conocidos, por ejemplo como los campos en la base de datos. Esta pila de documentos para los cuales los elementos que tienen el "significado" deseado son ya conocidos puede usarse a continuación como muestras de entrenamiento.
Un conjunto de documentos base pueden indexarse automáticamente comprobando para todos los elementos (o al menos parte de ellos) contenidos en el conjunto de documentos base si esos elementos tienen un cierto "significado"
o no. Con este enfoque de "bomba de arma de fuego" puede indexarse un conjunto de documentos base de forma totalmente automática, sin realizar siquiera ninguna búsqueda. En esta realización sólo se comprueban todos los elementos de los documentos base para ver si tienen un cierto significado deseado, y si es así, entonces esos elementos se usan para construir el índice.
Sin embargo, la selección de elementos para los cuales se realiza la comprobación real, pueden contener alguna "selección inteligente". Por ejemplo, sólo los elementos que cumplen el mismo criterio de formato, podrían seleccionarse para el procedimiento de evaluación. Esto podría reducir a continuación la potencia de cálculo necesaria para realizar la indexación automática.
Para sacar ventaja del uno o más índices que se han construido pueden usarse para formar tablas de bases de datos relacionales. A continuación, los documentos base sin estructurar pueden convertirse automáticamente a una forma estructurada de una base de datos relacional.
Breve descripción de los dibujos
La Fig. 1 ilustra esquemáticamente la primera realización de la presenten invención.
La Fig. 2 ilustra esquemáticamente una realización adicional de la presente invención.
La Fig. 3 ilustra esquemáticamente otra realización adicional más de la presente invención.
La Fig. 4 ilustra esquemáticamente la indexación de documentos.
Descripción detallada
La presente invención se explicará ahora por medio de relaciones ilustrativas en conexión con los dibujos adjuntos.
La Fig. 1 ilustra una primera realización de acuerdo con la presente invención. Asumamos que hay un conjunto de documentos que son no estructurados (solo documentos de texto normales) y que por consiguiente son difíciles de cuestionar para accederlos y ponerlos dentro de alguna forma ordenada.
Asumamos además que el usuario está interesado en los documentos de la pila de documentos base que a) contienen un cierto término, y b) en los cuales el cierto término tiene un cierto "significado", es decir en los que el cierto término pertenece a una cierta categoría que está relacionada con el significado del término para un ser humano. Como ejemplo, asumamos que un usuario está interesado en los documentos de la pila de documentos base que contienen el término "6 de Mayo de 2000", pero adicionalmente en los que el término (o elemento) "6 de Mayo de 2000" es una fecha de factura.
En primer lugar el usuario tiene que introducir entonces el término de búsqueda en el ordenador usando un método de entrada convencional. Además, el correspondiente "significado" que debería tener el término de búsqueda introducido también debería dirigirse de alguna forma al sistema de ordenador. El usuario podría bien introducir manualmente el "significado" correspondiente (tal como una entrada de "fecha de factura") o podría seleccionar de una diversidad de "significados" opcionales, o el "significado" correspondiente podría definirse a un valor por defecto. Después de que se ha clarificado el término de búsqueda y el "significado" correspondiente por la operación 100 en la Fig. 1, el método procede a la operación 110. En este documento la pila de documentos base se buscan los documentos que contienen el término de búsqueda introducido.
Esto recuperará cualesquiera documentos que contengan el elemento "6 de Mayo de 2000". Sin embargo, los documentos recuperados también pueden contener documentos en los que el término de búsqueda tiene un "significado" diferente del "significado" de la "fecha de factura", por ejemplo el "significado" podría ser una "fecha de nacimiento", una "fecha de expiración", o cualquier otra cosa.
Por lo tanto, en la operación 120 tiene que evaluarse si los documentos encontrados son documentos en los que el término se búsqueda tiene el significado deseado correspondiente o no.
Este procedimiento de evaluación se explicará ahora con mayor detalle en conexión con la Fig. 2. En la operación 200 se genera un documento de texto que codifica las posiciones de los elementos que rodean al término de búsqueda en el documento base encontrado. Esto se explica con mucho detalle en la Solicitud de Patente Europea 00103810.8, presentada el 23 de Febrero de 2000, por el solicitante de la presente solicitud y publicada como EP 1 128 278 A1. En particular, esta solicitud trata y describe un método que puede usarse para juzgar si ciertos elementos en un texto tienen un cierto "significado" o no. Esto se hace representando sus posiciones correspondientes a través del llamado "documento de disposición", y este documento de disposición se introduce a continuación dentro de un aparato de clasificación que se ha entrenado para reconocer si el documento de disposición introducido pertenece a cierta categoría o no.
El entrenamiento usualmente se realiza para posibilitar juzgar al aparato de clasificación si el documento de disposición representa el área de alrededor de un término de búsqueda para los documentos en los que el término de búsqueda tiene cualquier "significado" deseado o "entrenado" o no. Para detalles, se hace referencia a la Solicitud de Patente Europea anteriormente mencionada, es decir la EP 1 128 278 A1.
Este documento de disposición (o como lo llamamos en este punto, documento de texto) se usa a continuación como una entrada al aparato de clasificación como se ilustra en la operación 210 de la Fig. 2 de la presente solicitud. Este aparato de clasificación juzga a continuación si el documento de texto introducido pertenece a cierta "categoría"
o no. La "categoría" significa en este punto si el término de búsqueda tiene un cierto "significado" o si no lo tiene (en este caso, si es una fecha de factura o no).
En la operación 220 el aparato de clasificación realiza a continuación su juicio de si el término de búsqueda tiene el "significado" introducido (o deseado) o no. Un aparato de clasificación particularmente adaptado se describe en la Solicitud de Patente Europea 99108354.4, que se presentó por el solicitante de la presente solicitud el 28 de Abril de 1999 y se publicó como EP 1 049 030 A1. En particular cualesquiera detalles relativos al aparato de clasificación descritos o mencionados en este documento pueden tomarse de esta solicitud.
Sin embargo, también puede usarse cualquier otro aparato de clasificación que es capaz de evaluar si los documentos de texto pertenecen a una cierta categoría o no y también que se puede entrenar. Por supuesto, en primer lugar el aparato de clasificación tiene que entrenarse usando cierta muestra de entrenamiento, y después de esto, los documentos base encontrados de nuevo pueden introducirse en el aparato de clasificación y evaluarse por lo tanto, para ver si el término de búsqueda tiene un cierto "significado" o no.
Debería observarse de nuevo que una descripción detallada del proceso de extracción de elementos a partir de documentos de texto que tienen un "significado" deseado se describe en el documento EP 1 128 278 A1 mencionado anteriormente. También se describen en este documento las particularidades concernientes a cómo se representa el área de alrededor de un elemento candidato por medio de un documento de disposición que se suministra a continuación a un aparato de clasificación ejercitable para juzgar si el elemento candidato realmente tiene el "significado" deseado.
Una realización adicional de la presente invención que se refiere a la generación automática de cualquier índice se explica ahora en conexión con la Fig. 3. En la operación 300 el cierto "significado" que los elementos de los documentos base debería tener se definen o seleccionan, como ya se ha explicado anteriormente.
A continuación, como ya se ha explicado también, para los elementos a comprobar, se genera el documento de texto (o documento de disposición).
Este documento de texto puede introducirse a continuación a un aparato de clasificación ya entrenado en la operación 320. Este aparato de clasificación en la operación 330 comprueba a continuación si los elementos a comprobar tienen el cierto "significado" definido o seleccionado.
Si la evaluación da como resultado un "si", a continuación en la operación 340 se usa el elemento evaluado de este modo para construir un índice junto con el significado definido o seleccionado.
Si la respuesta en la operación 330 es un "no", a continuación en la operación 350 los elementos comprobados se descartan o, en otras palabras no se usan para construir el índice.
Usando el proceso ilustrado en la Fig. 3, puede realizarse una indexación automática de documentos.
Esto puede hacerse de varias formas. Los elementos a comprobar podrían ser todos los elementos que están contenidos en los documentos base individuales. Para cada uno de los elementos individuales, podría comprobarse a continuación, por ejemplo, si este elemento es una "fecha de factura" o no, por ejemplo generando un documento de disposición correspondiente, y a continuación evaluando este documento de disposición a través de un aparato de clasificación.
Es fácilmente evidente, que este enfoque es más bien consumidor de tiempo y potencia de cálculo, por lo tanto, la selección de los elementos a comprobar podría hacerse de un modo algo inteligente. Por ejemplo, podrían comprobarse sólo los elementos que coinciden con un cierto criterio de formato. Tal criterio de orden puede ser una compilación de los formatos bien conocidos que puede asumir una fecha, y comprobarse los elementos para ver si coinciden con el criterio de formato y sólo se realiza la comprobación final en el caso de cartas si el elemento seleccionado de este modo (que puede asumirse que es una "fecha") realmente es una "fecha de factura" o no.
Otro enfoque podría generar automáticamente los términos de búsqueda que a continuación se buscan en los documentos base.
Por ejemplo, podría seleccionarse un cierto intervalo de fechas (por ejemplo, desde el 1 de Enero de 2000 al 1 de Enero de 2001), y a continuación se buscan entonces todas las fechas que se encierran entre las mismas, en otras palabras, se aplican como términos de búsqueda para la pila de documentos base.
Para los términos de búsqueda en los que se encontrará una coincidencia, lo que significa que se encuentra un documento que contiene un término de búsqueda correspondiente, el documento de disposición se genera a continuación y se comprueba si el término de búsqueda tiene el cierto "significado" (en este caso: fecha de factura). Si es así, a continuación como ya se ha explicado anteriormente el término de búsqueda puede usarse para construir un índice.
Con este enfoque, no todos los elementos en los documentos base tiene que comprobarse, sin más bien sólo los elementos para los cuales la búsqueda ha suministrado una coincidencia.
El enfoque que es realmente más eficaz en términos de la potencia de cálculo necesaria puede depender de circunstancias individuales.
Debería estar claro que los ejemplos anteriores sólo son ejemplos ilustrativos, y que por supuesto el método explicado hasta ahora también puede aplicarse a cualesquiera otros "significados" que debería tener cierto término o elemento tal como por ejemplo un nombre, un nombre de calle, un nombre de familia, un nombre de pila, un nombre de ciudad, o cualquier otro.
El significado más general que podría tener cualquier elemento con respecto a cierto documento en el que está contenido podría ser que el elemento que "describe" justo de alguna manera el documento en el que está contenido. Por ejemplo, el término "factura" podría estar contenido en una factura, además, justo describe que el documento correspondiente realmente es una factura. Tales elementos que describen el contenido completo de un documento por supuesto puede usarse para construir un índice.
En una realización adicional el entrenamiento del aparato de clasificación se realiza de forma semiautomática. Por ejemplo un usuario identifica para cada uno de un conjunto de documentos los elementos que tienen el cierto "significado" deseado tal como por ejemplo, el número de factura. En base a esta selección introducida por el usuario se genera a continuación el documento de disposición que puede usarse como entrada de entrenamiento para el entrenamiento del aparato de clasificación. De este modo varios documentos de disposición que representan áreas de alrededor de los elementos que son números de facturas se introducen al aparato de clasificación y por lo tanto el aparato de clasificación se entrena ("aprende") para reconocer los elementos que son números de factura y a distinguirlos de los otros elementos que no tienen este significado.
En una realización adicional tal procedimiento de entrenamiento puede ejecutarse en un modo totalmente automático. Asumamos que hay un conjunto de documentos (por ejemplo desde cualquiera de las bases de datos ya existentes) que ya están almacenados, evaluados y clasificados en la forma de una base de datos relacional que tiene una columna "número de factura" en el cual para cada uno de los documentos ya está almacenado el número de factura. Entonces no hay necesidad de identificar manualmente el número de factura mediante el usuario sino que más bien la información desde la base de datos puede usarse para generar la entrada de entrenamiento. La base de datos proporciona el número de factura para cada uno de los documentos, este número puede buscarse a continuación en el propio documento y después de que se ha localizado en base al área de alrededor que rodea al número de factura, se genera el documento de disposición. Este proceso se puede realizar para cada uno de los documentos de la base de datos y a continuación da como resultado un gran conjunto de documentos de disposición que pueden usarse como ejemplos de entrenamiento para entrenar al aparato de clasificación. Por lo tanto puede realizarse un entrenamiento totalmente automático sin necesidad de identificar elementos por el usuario.
Debería estar claro para cualquier especialista en la técnica que este procedimiento puede realizarse no sólo para "números de factura" sino para cualesquiera otros elementos que tienen un cierto "significado" y que son ya conocidos. Este conocimiento acerca de los propios elementos y su "significado" no necesita venir de una base de datos, también puede estar almacenada por ejemplo en una tabla de una hoja de cálculo, o puede incluso estar escrita en papel en la forma de una tabla que a continuación puede escanearse. No importa desde donde viene el conocimiento acerca de los propios elementos y su "significado", siempre que exista y pueda utilizarse para automatizar el proceso de entrenamiento del aparato de clasificación en base a este conocimiento.
Aunque la presente invención se ha descrito anteriormente en este documento por medio de realizaciones de ejemplo, será fácilmente evidente para el lector experto que pueden realizarse modificaciones sin apartarse del alcance de la invención como se define en las reivindicaciones adjuntas.

Claims (9)

  1. REIVINDICACIONES
    1. Un método para recuperar en base a un término de búsqueda junto con una cierta categoría a la que pertenece el término de búsqueda, a partir de un conjunto de documentos base, los documentos base que contienen dicho término de búsqueda y en los que dicho cierto término de búsqueda pertenece a dicha cierta categoría para posibilitar la construcción de un índice sobre dichos documentos recuperados, comprendiendo dicho método:
    -
    buscar (110) en los documentos base de entre dicho conjunto de documentos base los que contienen dicho cierto término de búsqueda; -evaluar (120) los documentos base encontrados para ver si dicho término de búsqueda contenido en dichos documentos base encontrados, pertenecen, respectivamente a dicha cierta categoría o no, comprendiendo dicha evaluación:
    -
    generar (200) un documento de texto para representar los elementos en el documento base encontrado alrededor del término de búsqueda y los elementos correspondientes a la posición absoluta o relativa con respecto a dicho término de búsqueda, codificando los elementos de dicho documento de texto, dichas posiciones absolutas o relativas de dichos elementos de alrededor. -introducir (210) dicho documento de texto en un aparato de clasificación ejercitable, que se ha entrenado para reconocer si dicho término de búsqueda en un documento de texto introducido, pertenece a cierta categoría o no, mientras que dicho entrenamiento se ha realizado en base a una muestra de entrenamiento de documentos de texto que se han generado para documentos de texto en los que el término de búsqueda rodeado por los elementos de alrededor pertenecen a dicha cierta categoría; y -clasificar dicho documento de texto introducido para juzgar (220) si dicho término de búsqueda pertenece a dicha cierta categoría introducida o no, e
    -
    indexar una pluralidad de dichos documentos base usando dicho término de búsqueda y dicha categoría correspondiente para construir un índice para dichos documentos base.
  2. 2.
    El método de la reivindicación 1, en el que los elementos de dicho documento de texto son codificaciones de dichas posiciones absolutas o relativas de dichos elementos de alrededor por las correspondientes cadenas de caracteres de texto.
  3. 3.
    El método de la reivindicación 1, que comprende además:
    -repetir dichas etapas de búsqueda, entrada y clasificación e indexación para una pluralidad de términos de búsqueda, generándose dichos términos de búsqueda automáticamente de acuerdo con una norma predefinida.
  4. 4.
    El método de una de las reivindicaciones de 1 a 3, en el que dicha búsqueda de dichos documentos base comprende una búsqueda asociativa; y/o una búsqueda difusa en base a dicho término de búsqueda.
  5. 5.
    El método de la reivindicación 1, que comprende además:
    -comprobar todos los términos de búsqueda de dichos documentos base, o -comprobar sólo los términos de búsqueda de dichos documentos base que coinciden con uno o más criterios predefinidos.
  6. 6.
    El método de reivindicaciones 1 ó 5, que comprende además
    -generar una base de datos relacional a partir del término de búsqueda del índice y su categoría correspondiente.
  7. 7.
    El método de acuerdo con una de las reivindicaciones anteriores de 1 a 6, que comprende el entrenamiento del aparato de clasificación, comprendiendo dicho entrenamiento:
    a) buscar los documentos base en los que el término de búsqueda pertenece a cierta categoría; b) seleccionar dicho término de búsqueda por el usuario;
    -repetir las operaciones a) y b) hasta que se ha seleccionado el conjunto suficiente de documentos base para generar una muestra de entrenamiento: -generar los documentos de texto para los documentos base respectivos; -usar dichos documentos de texto generados como un conjunto de entrenamiento para entrenar dicho aparato de clasificación corriendo dicho aparato de clasificación en el modo de entrenamiento.
  8. 8.
    El método de acuerdo con una de las reivindicaciones anteriores de 1 a 6, que comprende el entrenamiento del aparato de clasificación, comprendiendo dicho entrenamiento:
    -usar un conjunto de documentos base para los cuales los términos de búsqueda que pertenecen a la categoría predefinida deseada son ya conocidos para generar automáticamente documentos de texto como muestras de entrenamiento para entrenar dicho aparato de clasificación.
  9. 9.
    Un programa de ordenador que comprende un código de programa de ordenador para posibilitar que un ordenador realice un método de acuerdo con una de las reivindicaciones anteriores de 1 a 8 cuando dicho programa se corre sobre un ordenador.
ES01120429T 2001-08-27 2001-08-27 Un método para la indexación automática de documentos. Expired - Lifetime ES2375403T3 (es)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
EP01120429A EP1288792B1 (en) 2001-08-27 2001-08-27 A method for automatically indexing documents

Publications (1)

Publication Number Publication Date
ES2375403T3 true ES2375403T3 (es) 2012-02-29

Family

ID=8178421

Family Applications (1)

Application Number Title Priority Date Filing Date
ES01120429T Expired - Lifetime ES2375403T3 (es) 2001-08-27 2001-08-27 Un método para la indexación automática de documentos.

Country Status (10)

Country Link
US (2) US8015198B2 (es)
EP (1) EP1288792B1 (es)
JP (1) JP4860903B2 (es)
AT (1) ATE537507T1 (es)
AU (3) AU2002331728B2 (es)
CA (2) CA2776891C (es)
DK (1) DK1288792T3 (es)
ES (1) ES2375403T3 (es)
PT (1) PT1288792E (es)
WO (1) WO2003019524A1 (es)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1049030A1 (en) 1999-04-28 2000-11-02 SER Systeme AG Produkte und Anwendungen der Datenverarbeitung Classification method and apparatus
DE60005293T2 (de) * 2000-02-23 2004-07-01 Ser Solutions Inc. Methode und Vorrichtung zur Verarbeitung elektronischer Dokumente
US9177828B2 (en) 2011-02-10 2015-11-03 Micron Technology, Inc. External gettering method and device
EP1182577A1 (en) 2000-08-18 2002-02-27 SER Systeme AG Produkte und Anwendungen der Datenverarbeitung Associative memory
ES2375403T3 (es) 2001-08-27 2012-02-29 BDGB Enterprise Software Sàrl Un método para la indexación automática de documentos.
US7860844B2 (en) * 2005-07-15 2010-12-28 Indxit Systems Inc. System and methods for data indexing and processing
US7853595B2 (en) * 2007-01-30 2010-12-14 The Boeing Company Method and apparatus for creating a tool for generating an index for a document
US9213756B2 (en) 2009-11-02 2015-12-15 Harry Urbschat System and method of using dynamic variance networks
US9158833B2 (en) 2009-11-02 2015-10-13 Harry Urbschat System and method for obtaining document information
US9152883B2 (en) 2009-11-02 2015-10-06 Harry Urbschat System and method for increasing the accuracy of optical character recognition (OCR)
US8321357B2 (en) 2009-09-30 2012-11-27 Lapir Gennady Method and system for extraction
CA2840229A1 (en) 2011-07-11 2013-01-17 Paper Software LLC System and method for processing document
WO2013009904A1 (en) 2011-07-11 2013-01-17 Paper Software LLC System and method for processing document
US10452764B2 (en) * 2011-07-11 2019-10-22 Paper Software LLC System and method for searching a document
AU2012281160B2 (en) 2011-07-11 2017-09-21 Paper Software LLC System and method for processing document
US8996350B1 (en) 2011-11-02 2015-03-31 Dub Software Group, Inc. System and method for automatic document management
US9002102B2 (en) * 2012-12-21 2015-04-07 Hewlett-Packard Development Company, L.P. Generating training documents
US9922037B2 (en) * 2015-01-30 2018-03-20 Splunk Inc. Index time, delimiter based extractions and previewing for use in indexing
US10839149B2 (en) 2016-02-01 2020-11-17 Microsoft Technology Licensing, Llc. Generating templates from user's past documents
US9922022B2 (en) * 2016-02-01 2018-03-20 Microsoft Technology Licensing, Llc. Automatic template generation based on previous documents
US11237847B1 (en) 2019-12-19 2022-02-01 Wells Fargo Bank, N.A. Automated standards-based computing system reconfiguration
US11502905B1 (en) 2019-12-19 2022-11-15 Wells Fargo Bank, N.A. Computing infrastructure standards assay

Family Cites Families (116)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4731861A (en) 1983-08-26 1988-03-15 Texas Instruments Incorporated Method of optical character recognition
JPS61204733A (ja) 1985-03-07 1986-09-10 Oki Electric Ind Co Ltd 視野管理システム
JPS61217863A (ja) 1985-03-23 1986-09-27 Brother Ind Ltd 電子辞書
AU595378B2 (en) 1986-08-22 1990-03-29 Commonwealth Scientific And Industrial Research Organisation Content-addressable memory system with active memory circuit
US4864501A (en) 1987-10-07 1989-09-05 Houghton Mifflin Company Word annotation system
WO1989004013A1 (en) 1987-10-09 1989-05-05 Nucleus International Corporation A relational database representation with relational database operation capability
EP0320266A3 (en) 1987-12-11 1992-03-11 Hewlett-Packard Company View composition in a data base management system
JPH01277977A (ja) 1988-04-28 1989-11-08 Nec Corp パタン照合装置
JPH02186484A (ja) 1989-01-12 1990-07-20 Ricoh Co Ltd 認識辞書の学習方式
US5201047A (en) 1989-12-21 1993-04-06 International Business Machines Corporation Attribute-based classification and retrieval system
US5191525A (en) 1990-01-16 1993-03-02 Digital Image Systems, Corporation System and method for extraction of data from documents for subsequent processing
US5344132A (en) 1990-01-16 1994-09-06 Digital Image Systems Image based document processing and information management system and apparatus
FR2660085A1 (fr) 1990-03-20 1991-09-27 Philips Electronique Lab Dispositif de traitement de donnees et procede pour selectionner des mots de donnees contenus dans un dictionnaire.
JP3329806B2 (ja) 1990-11-09 2002-09-30 株式会社日立製作所 ニューラルネット構築装置
JPH04123283U (ja) 1991-04-19 1992-11-06 鐘紡株式会社 編立機の不使用糸処理装置
US5278980A (en) * 1991-08-16 1994-01-11 Xerox Corporation Iterative technique for phrase query formation and an information retrieval system employing same
US5245672A (en) 1992-03-09 1993-09-14 The United States Of America As Represented By The Secretary Of Commerce Object/anti-object neural network segmentation
US5377348A (en) 1992-06-04 1994-12-27 International Business Machines Corporation System for searching a data base by creating a marking matrix in which two dimensional patterns control the search and selection
US5491758A (en) 1993-01-27 1996-02-13 International Business Machines Corporation Automatic handwriting recognition using both static and dynamic parameters
US5649068A (en) 1993-07-27 1997-07-15 Lucent Technologies Inc. Pattern recognition system using support vectors
US5619709A (en) 1993-09-20 1997-04-08 Hnc, Inc. System and method of context vector generation and retrieval
GB2281997B (en) 1993-09-20 1997-10-15 Ricoh Kk Method and apparatus for improving a text image by using character regeneration
US5537491A (en) 1993-11-24 1996-07-16 Xerox Corporation Analyzing an image or other data to obtain a stable number of groups
US5742806A (en) 1994-01-31 1998-04-21 Sun Microsystems, Inc. Apparatus and method for decomposing database queries for database management system including multiprocessor digital data processing system
NZ248751A (en) 1994-03-23 1997-11-24 Ryan John Kevin Text analysis and coding
JPH07271916A (ja) 1994-03-31 1995-10-20 Suzuki Motor Corp 学習パターン生成装置及びこれを用いた文字認識装置
US5671333A (en) 1994-04-07 1997-09-23 Lucent Technologies Inc. Training apparatus and method
US5689620A (en) 1995-04-28 1997-11-18 Xerox Corporation Automatic training of character templates using a transcription and a two-dimensional image source model
US5956419A (en) 1995-04-28 1999-09-21 Xerox Corporation Unsupervised training of character templates using unsegmented samples
US5675710A (en) 1995-06-07 1997-10-07 Lucent Technologies, Inc. Method and apparatus for training a text classifier
JPH096799A (ja) 1995-06-19 1997-01-10 Sharp Corp 文書分類装置及び文書検索装置
AU6849196A (en) 1995-08-16 1997-03-19 Syracuse University Multilingual document retrieval system and method using semantic vector matching
US5889886A (en) 1995-11-28 1999-03-30 Xerox Corporation Method and apparatus for detecting running text in an image
US6009196A (en) 1995-11-28 1999-12-28 Xerox Corporation Method for classifying non-running text in an image
US6076088A (en) 1996-02-09 2000-06-13 Paik; Woojin Information extraction system and method using concept relation concept (CRC) triples
US5864855A (en) 1996-02-26 1999-01-26 The United States Of America As Represented By The Secretary Of The Army Parallel document clustering process
JP2987099B2 (ja) 1996-03-27 1999-12-06 株式会社日立国際ビジネス 文書作成支援システム及び用語辞書
US5787201A (en) 1996-04-09 1998-07-28 The United States Of America As Represented By The Secretary Of The Navy High order fractal feature extraction for classification of objects in images
US5937084A (en) 1996-05-22 1999-08-10 Ncr Corporation Knowledge-based document analysis system
US6101515A (en) * 1996-05-31 2000-08-08 Oracle Corporation Learning system for classification of terminology
US5778362A (en) 1996-06-21 1998-07-07 Kdl Technologies Limted Method and system for revealing information structures in collections of data items
DE19627472A1 (de) 1996-07-08 1998-01-15 Ser Systeme Ag Datenbanksystem
US5918223A (en) 1996-07-22 1999-06-29 Muscle Fish Method and article of manufacture for content-based analysis, storage, retrieval, and segmentation of audio information
US5745889A (en) 1996-08-09 1998-04-28 Digital Equipment Corporation Method for parsing information of databases records using word-location pairs and metaword-location pairs
WO1998012616A2 (en) 1996-09-23 1998-03-26 Lowrie Mcintosh Defining a uniform subject classification system incorporating document management/records retention functions
US6275610B1 (en) 1996-10-16 2001-08-14 Convey Corporation File structure for scanned documents
US6327387B1 (en) 1996-12-27 2001-12-04 Fujitsu Limited Apparatus and method for extracting management information from image
DE19715723A1 (de) 1997-04-15 1998-11-12 Dci Datenbank Fuer Wirtschafts Array-Verfahren
US6353840B2 (en) 1997-08-15 2002-03-05 Ricoh Company, Ltd. User-defined search template for extracting information from documents
JPH11184894A (ja) * 1997-10-07 1999-07-09 Ricoh Co Ltd 論理要素抽出方法および記録媒体
US5999664A (en) 1997-11-14 1999-12-07 Xerox Corporation System for searching a corpus of document images by user specified document layout components
US6665841B1 (en) 1997-11-14 2003-12-16 Xerox Corporation Transmission of subsets of layout objects at different resolutions
US5987457A (en) 1997-11-25 1999-11-16 Acceleration Software International Corporation Query refinement method for searching documents
JP4116688B2 (ja) 1997-12-22 2008-07-09 株式会社日本デジタル研究所 辞書学習方法および文字認識装置
US6289342B1 (en) 1998-01-05 2001-09-11 Nec Research Institute, Inc. Autonomous citation indexing and literature browsing using citation context
US6115708A (en) 1998-03-04 2000-09-05 Microsoft Corporation Method for refining the initial conditions for clustering with applications to small and large database clustering
US6161130A (en) 1998-06-23 2000-12-12 Microsoft Corporation Technique which utilizes a probabilistic classifier to detect "junk" e-mail by automatically updating a training and re-training the classifier based on the updated training set
US6192360B1 (en) 1998-06-23 2001-02-20 Microsoft Corporation Methods and apparatus for classifying text and for building a text classifier
US6243713B1 (en) 1998-08-24 2001-06-05 Excalibur Technologies Corp. Multimedia document retrieval by application of multimedia queries to a unified index of multimedia data for a plurality of multimedia data types
US6324551B1 (en) 1998-08-31 2001-11-27 Xerox Corporation Self-contained document management based on document properties
US6212532B1 (en) * 1998-10-22 2001-04-03 International Business Machines Corporation Text categorization toolkit
US6574632B2 (en) * 1998-11-18 2003-06-03 Harris Corporation Multiple engine information retrieval and visualization system
JP2000155803A (ja) 1998-11-20 2000-06-06 Nec Corp 文字読取方法および光学式文字読取装置
US6189002B1 (en) * 1998-12-14 2001-02-13 Dolphin Search Process and system for retrieval of documents using context-relevant semantic profiles
US6622134B1 (en) 1999-01-05 2003-09-16 International Business Machines Corporation Method of constructing data classifiers and classifiers constructed according to the method
DE60042165D1 (de) 1999-01-13 2009-06-18 Computer Ass Think Inc Unterschriften-erkennungs-system und -verfahren
US6477551B1 (en) 1999-02-16 2002-11-05 International Business Machines Corporation Interactive electronic messaging system
EP1049030A1 (en) 1999-04-28 2000-11-02 SER Systeme AG Produkte und Anwendungen der Datenverarbeitung Classification method and apparatus
US6629097B1 (en) * 1999-04-28 2003-09-30 Douglas K. Keith Displaying implicit associations among items in loosely-structured data sets
US6611825B1 (en) 1999-06-09 2003-08-26 The Boeing Company Method and system for text mining using multidimensional subspaces
US6501855B1 (en) 1999-07-20 2002-12-31 Parascript, Llc Manual-search restriction on documents not having an ASCII index
US6785810B1 (en) 1999-08-31 2004-08-31 Espoc, Inc. System and method for providing secure transmission, search, and storage of data
US6453315B1 (en) * 1999-09-22 2002-09-17 Applied Semantics, Inc. Meaning-based information organization and retrieval
US6990238B1 (en) 1999-09-30 2006-01-24 Battelle Memorial Institute Data processing, analysis, and visualization system for use with disparate data types
US6188010B1 (en) 1999-10-29 2001-02-13 Sony Corporation Music search by melody input
DE19952769B4 (de) 1999-11-02 2008-07-17 Sap Ag Suchmaschine und Verfahren zum Abrufen von Informationen mit Abfragen in natürlicher Sprache
DE60005293T2 (de) 2000-02-23 2004-07-01 Ser Solutions Inc. Methode und Vorrichtung zur Verarbeitung elektronischer Dokumente
US7149347B1 (en) 2000-03-02 2006-12-12 Science Applications International Corporation Machine learning of document templates for data extraction
WO2001067207A2 (en) 2000-03-09 2001-09-13 The Web Access, Inc. Method and apparatus for organizing data by overlaying a searchable database with a directory tree structure
US6741724B1 (en) 2000-03-24 2004-05-25 Siemens Dematic Postal Automation, L.P. Method and system for form processing
US20070033252A1 (en) 2000-03-30 2007-02-08 Combest Ricky F Dynamic virtual network and method
JP2001318948A (ja) 2000-05-09 2001-11-16 Hitachi Ltd 文書検索方法及び装置並びにその処理プログラムを記憶した媒体
US7028250B2 (en) 2000-05-25 2006-04-11 Kanisa, Inc. System and method for automatically classifying text
US6895552B1 (en) 2000-05-31 2005-05-17 Ricoh Co., Ltd. Method and an apparatus for visual summarization of documents
US6944340B1 (en) 2000-08-07 2005-09-13 Canon Kabushiki Kaisha Method and apparatus for efficient determination of recognition parameters
EP1182577A1 (en) 2000-08-18 2002-02-27 SER Systeme AG Produkte und Anwendungen der Datenverarbeitung Associative memory
US6766316B2 (en) * 2001-01-18 2004-07-20 Science Applications International Corporation Method and system of ranking and clustering for document indexing and retrieval
US20020156816A1 (en) 2001-02-13 2002-10-24 Mark Kantrowitz Method and apparatus for learning from user self-corrections, revisions and modifications
US6732090B2 (en) * 2001-08-13 2004-05-04 Xerox Corporation Meta-document management system with user definable personalities
ES2375403T3 (es) 2001-08-27 2012-02-29 BDGB Enterprise Software Sàrl Un método para la indexación automática de documentos.
EP1315096B1 (en) 2001-11-21 2012-07-18 Werner Voegeli Method and apparatus for retrieving relevant information
JP4006239B2 (ja) 2002-02-21 2007-11-14 株式会社日立製作所 文書の検索方法および検索システム
GB0308413D0 (en) 2003-04-11 2003-05-21 Enseal Systems Ltd Verification of authenticity of check data
JP4366108B2 (ja) 2003-04-30 2009-11-18 キヤノン株式会社 文書検索装置、文書検索方法及びコンピュータプログラム
JP2005038077A (ja) 2003-07-17 2005-02-10 Hitachi Ltd 筆記データ入力装置
JP2005043977A (ja) 2003-07-23 2005-02-17 Hitachi Ltd 文書間の類似度算出方法および装置
US7805446B2 (en) 2004-10-12 2010-09-28 Ut-Battelle Llc Agent-based method for distributed clustering of textual information
US20060142993A1 (en) 2004-12-28 2006-06-29 Sony Corporation System and method for utilizing distance measures to perform text classification
US8570586B2 (en) 2005-05-02 2013-10-29 Digimarc Corporation Active images through digital watermarking
US7865018B2 (en) 2005-06-02 2011-01-04 Microsoft Corporation Personalized implicit and explicit character shape adaptation and recognition
US7949714B1 (en) * 2005-12-05 2011-05-24 Google Inc. System and method for targeting advertisements or other information using user geographical information
US7472121B2 (en) 2005-12-15 2008-12-30 International Business Machines Corporation Document comparison using multiple similarity measures
US8090743B2 (en) 2006-04-13 2012-01-03 Lg Electronics Inc. Document management system and method
WO2007149004A1 (en) 2006-06-13 2007-12-27 Freescale Semiconductor, Inc. Methods and apparatus for simulating distributed effects
US7945627B1 (en) 2006-09-28 2011-05-17 Bitdefender IPR Management Ltd. Layout-based electronic communication filtering systems and methods
US7610281B2 (en) 2006-11-29 2009-10-27 Oracle International Corp. Efficient computation of document similarity
US7720721B1 (en) 2006-12-28 2010-05-18 Amazon Technologies, Inc. Method and system for analyzing user interaction to identify documents associated with dissimilar items that may contain synonyms
WO2008097194A1 (en) 2007-02-09 2008-08-14 Agency For Science, Technology And Research Keyword classification and determination in language modelling
US8280877B2 (en) 2007-02-22 2012-10-02 Microsoft Corporation Diverse topic phrase extraction
US20080212877A1 (en) 2007-03-04 2008-09-04 John Franco High speed error detection and correction for character recognition
US8049921B2 (en) 2007-04-16 2011-11-01 Bottomline Technologies (De) Inc. System and method for transferring invoice data output of a print job source to an automated data processing system
US20090228777A1 (en) 2007-08-17 2009-09-10 Accupatent, Inc. System and Method for Search
US20090125529A1 (en) 2007-11-12 2009-05-14 Vydiswaran V G Vinod Extracting information based on document structure and characteristics of attributes
AU2008255269A1 (en) 2008-02-05 2009-08-20 Nuix Pty. Ltd. Document comparison method and apparatus
JP5402099B2 (ja) 2008-03-06 2014-01-29 株式会社リコー 情報処理システム、情報処理装置、情報処理方法およびプログラム
JP4538507B2 (ja) 2008-05-02 2010-09-08 シャープ株式会社 画像照合方法、画像照合装置、画像データ出力処理装置、プログラム及び記憶媒体

Also Published As

Publication number Publication date
CA2459182C (en) 2012-07-17
AU2002331728B2 (en) 2008-03-06
JP2005501321A (ja) 2005-01-13
ATE537507T1 (de) 2011-12-15
US9141691B2 (en) 2015-09-22
DK1288792T3 (da) 2012-04-02
WO2003019524A1 (en) 2003-03-06
US20120078934A1 (en) 2012-03-29
CA2459182A1 (en) 2003-03-06
US20090307202A1 (en) 2009-12-10
CA2776891C (en) 2015-11-17
PT1288792E (pt) 2012-02-29
AU2010249253B2 (en) 2012-09-20
AU2008202535A1 (en) 2008-06-26
EP1288792B1 (en) 2011-12-14
CA2776891A1 (en) 2003-03-06
US8015198B2 (en) 2011-09-06
AU2010249253A1 (en) 2011-01-06
EP1288792A1 (en) 2003-03-05
JP4860903B2 (ja) 2012-01-25

Similar Documents

Publication Publication Date Title
ES2375403T3 (es) Un método para la indexación automática de documentos.
US7814102B2 (en) Method and system for linking documents with multiple topics to related documents
CA2750609C (en) Methods and systems for matching records and normalizing names
US9501455B2 (en) Systems and methods for processing data
US20040049499A1 (en) Document retrieval system and question answering system
CN111522901A (zh) 文本中地址信息的处理方法及装置
AU2002331728A1 (en) A method for automatically indexing documents
US7058623B2 (en) Computer automated system for management of engineering drawings
KR20070102034A (ko) 문서검색 결과를 이용한 군집화 시스템 및 그 방법
CN108959566A (zh) 一种基于Stacking集成学习的医疗文本去隐私方法和系统
TWI396990B (zh) 引用文獻記錄擷取系統、方法及程式產品
JP2008077634A (ja) モバイル機器におけるフォーム自動記入方法および装置
CN120179831A (zh) 基于大语言模型的有害知识图谱构建与有害信息识别方法
Souza et al. ARCTIC: metadata extraction from scientific papers in pdf using two-layer CRF
JP5894273B2 (ja) 文書関連付け方法および文書検索方法、文書関連付け装置および文書検索装置、並びにそのためのプログラム
Dejean Extracting structured data from unstructured document with incomplete resources
AU2012258320B2 (en) A method for automatically indexing documents
CN118760758B (zh) 一种智慧教学的标签匹配方法及系统
CN119046509B (zh) 一种情报数据的融合处理方法及平台
JP2008065468A (ja) テキスト多重分類装置、テキストを多重分類する方法、プログラムおよび記憶媒体
JP3719089B2 (ja) 文書処理装置
CN112101026A (zh) 语料样本集合的构建方法、计算设备及计算机存储介质
CN114332875A (zh) 一种笔记卡片结构化方法
Collins et al. Automated data verification in a format-free environment