BRPI0707800A2

BRPI0707800A2 - mÉtodo e sistema para resolver dados de saÍda contraditàrios de um sistema de reconhecimento àptico de caracteres

Info

Publication number: BRPI0707800A2
Application number: BRPI0707800-5A
Authority: BR
Inventors: Hans Christian Meyer; Mats Stefan Carlin; Knut Tharald Fosseide
Original assignee: Lumex As
Priority date: 2006-02-17
Filing date: 2007-02-15
Publication date: 2011-05-10
Also published as: CA2642217C; CN101443787A; MX2008010554A; WO2007094684A2; WO2007094684A3; EP1987471A2; IL193223A; US20090067756A1; ZA200806779B; RU2417435C2; CA2642217A1; IL193223A0; RU2008137125A; CN101443787B; AU2007215636A1; AU2007215636B2; US8315484B2

Abstract

METODO E SISTEMA PARA RESOLVER DADOS DE SAÍDA CONTRADITàRIOS DE UM SISTEMA DE RECONHECIMENTO àPTICO DE CARACTERES A presente invenção provê um método e sistema para confirmar palavras duvidosamente reconhecidas como relatadas por um processo de Reconhecimento àptico de Caracteres usando alternativas ortográficas como argumentos de pesquisa para um utilitário de pesquisa de Internet. O número medido de acertos para cada alternativa ortográfica é usado para prover uma medida de confirmação para a alternativa ortográfica mais provável. Sempre que a medida de confirmação é inconclusa, uma pluralidade de estratégias de pesquisa é usada para alcançar um resultado medido incluindo acertos zero, exceto para uma alternativa ortográfica que é usada como a alternativa correta.

Description

"METODO E SISTEMA PARA RESOLVER DADOS DE SAIDACONTRADITÓRIOS DE UM SISTEMA DE RECONHECIMENTOÓPTICO DE CARACTERES"

A presente invenção é geralmente relacionada a sistemas deReconhecimento Óptico de Caracteres (OCR), e especialmente a um métodopara verificação automática de versão mais provável de palavrasduvidosamente reconhecidas como informado pelo processo dereconhecimento.

Existem muitas propostas na técnica anterior para proverreconhecimento óptico de caracteres baseado em imagens de texto. Sistemasde Reconhecimento Óptico de Caracteres (OCR) trabalham bastante bem paradocumentos de papel varridos de alta qualidade, mas tipicamente falham paravarreduras de baixa qualidade ou fontes estranhas. Também há às vezes errosortográficos nos documentos capturados pelo componente de sistema deOCR. Para ser capaz de re-publicar os documentos, para ser capaz depesquisar os documentos eletronicamente (registros médicos por exemplo,pesquisa de palavra chave, etc., catálogos eletrônicos, bancos de dados comdocumentos históricos e informação, etc.), a conversão de imagens de textopara forma executável por computador (converter o texto para textocodificado em ASCII) é um imperativo que proveja um meio para trabalharcom documentos em um modo altamente efetivo em custo, como conhecido auma pessoa qualificado na técnica. Portanto, há uma necessidade por umaqualidade melhor no resultado de componentes de sistema de OCR para sercapaz de utilizar completamente todas as possibilidades com manipulação dedocumento eletrônica. A introdução da Internet também foi um fatoraumentando demandas para uma qualidade mais alta do processo de OCRcomo tal. Imagens de texto armazenadas em computadores em formato dePDF por exemplo, são pesquisáveis por navegadores da Internet. Porém, otexto incluído nos arquivos de PDF deve ser convertido para formato digitallegível por computador para ser pesquisável.

Sistemas de software de Reconhecimento Óptico de Caracteres(OCR) podem ser projetados para se adaptar à qualidade de texto e fonte dodocumento varrido real. OCR adaptável está limitado àqueles caracteres quetem exemplos conhecidos de reconhecimento de caractere robusto, estatísticasconhecidas, e/ou é achado em listas de palavras ou dicionários. Alguns doscaracteres incertos restantes depois do processo de reconhecimento serãocaracteres que tanto estão ocorrendo raramente, ou que são facilmenteconfundidos com outro caractere no processo de reconhecimento provendoum agrupamento de caracteres de interpretações alternativas do caractere.

Estes caracteres não podem ser reconhecidos (ou verificados) dentro dasestruturas da técnica anterior existentes para OCR. Por exemplo, muitosdestes caracteres podem não pertencer a palavras em um dicionário específicode idioma desde que eles podem ser nomes próprios, palavras ou expressõesestrangeiras, ou simplesmente sendo de outro idioma. A produção do sistemade OCR geralmente é uma cadeia de caracteres representando o texto comoum texto digital. Informação sobre fonte, tamanho e posição também pode serincluída para ser capaz de recriar o estilo do documento original, por exemploao re-publicar o documento. Além disso, a maioria dos sistemas de softwarede OCR usa uma probabilidade de caractere individual ou valor de contagempara identificar caractere ou palavras duvidosamente reconhecidos, e umverificador ortográfico que provê palavras alternativas para estas palavrasduvidosamente reconhecidas.

Na técnica anterior há alguns exemplos de usar a Internetcomo uma fonte para documentos e informação sobre assuntos, etc., paraestabelecer um método para corrigir erros em documentos processados por OCR.

O artigo "Using the Web to Obtain Frequencies for UnseenBigrams", por Frank Keller e Mirella Lapta, '2003 Association forComputacional Linguistics', inclui uma investigação e uma abordagem parasuperar análise de dados para palavras difíceis em um processo de OCR. Umadas questões discutidas neste artigo é se freqüências da Web são adequadaspara modelagem probabilística.

O artigo "Text Correction Using Domain Dependent BigramModels from Web Crawls" por Christoffer Ringsletter et al., AND 2007,descreve como freqüências da web podem ser usadas como um valor decontagem para modificar uma posição existente de candidatos em umaestratégia de correção existente. Nos exemplos descritos no artigo, a Web éusada como um dicionário como conhecido a uma pessoa qualificada natécnica.

O artigo "Precise and Efficient Text Correction usingLevenshtein Automata, Dynamic Web Dictionaries and Optimized CorrectionModels" por Stoyan Mihov et al., Academia Búlgara de Ciências, 2004,descreve um método de construir um dicionário local relacionado ao tema dodocumento sob processamento de OCR de pesquisas da web. A conclusão éque dicionários locais pequenos provêem o melhor resultado.

Nenhum destes documentos citados da técnica anterior provêum método completo melhorado significativo para corrigir produções deOCR. Portanto, há uma necessidade por uma funcionalidade de OCRavançada que provê confirmação de versão mais provável de palavrasduvidosamente reconhecidas em sistemas de OCR.

De acordo com um aspecto da presente invenção, utilitários depesquisa da Internet podem prover a confirmação só medindo o número deacertos medidos usando uma palavra incerta como um argumento de pesquisaem um utilitário de pesquisa da Internet. De acordo com este aspecto dapresente invenção, um argumento de pesquisa provendo zero acertos éconsiderado como uma certa confirmação que a palavra duvidosamentereconhecida não é esta versão particularmente da palavra sob investigação.Se o número medido de acertos para uma palavra incerta formuito alto, é certamente possível que esta seja uma versão correta. Porém, deacordo com um aspecto adicional da presente invenção, pesquisas deveriamser executadas com palavras e/ou combinações alternativas de palavras tal queo número de acertos medidos seja zero para todas as palavras e/oucombinações, exceto para uma palavra e/ou uma combinação. Então a versãomais provável das palavras duvidosamente reconhecidas é esta palavraparticular identificada nesta série de medições com uma medição que é nãozero.

De acordo com um aspecto da presente invenção, tais etapasde método podem ser implementadas em um programa em um computadorinterconectado em rede que se comunica com a Internet por uma Interface dePrograma Aplicativo (API) se comunicando com sites da Internet. De acordocom este aspecto da presente invenção, o programa implementado recebeentrada sobre palavras duvidosamente reconhecidas de um programa de OCR,executa pesquisas pela API por exemplo, e então mede o número de acertoscomo informado pelo navegador pelo API. As medições para as alternativasortográficas diferentes são então usadas para avaliar a palavra mais provável,ou são usadas para iniciar medições adicionais de alternativas ortográficas, usando palavra única, combinação de múltiplas palavras, frases e/ou emcombinação com curingas como argumentos de pesquisa adicionais que sãomedidos.

De acordo com um exemplo de concretização da presenteinvenção, é possível estabelecer uma medida de confirmação para palavrasduvidosamente reconhecidas. Em um exemplo de concretização em quepesquisas da Internet são executadas de acordo com a presente invenção, onúmero de acertos medidos é todo re-normalizado tal que o número relativode acertos possa ser comparado. Em concretizações alternativas da presenteinvenção, medições mais elaboradas e níveis de limiar usados para aceite ourejeição de alternativas ortográficas são providas. A medida de confirmaçãobaseada nestes números relativos também pode ser comparada com um limiarde confirmação mais alto e um limiar de confirmação mais baixo. De acordocom este exemplo de concretização, sempre que uma medida de confirmaçãopara uma palavra duvidosamente reconhecida estiver acima do limiar deconfirmação mais alto, é considerada como sendo identificada certamente. Sea medida de confirmação estiver abaixo do limiar de confirmação mais baixo,é considerada como sendo não certamente esta versão particular da palavra.Se a medida de confirmação cair entre o limiar de confirmação superior einferior, investigação adicional da palavra duvidosamente reconhecida énecessária executando pesquisas e medições adicionais.

De acordo com outro aspecto da presente invenção, váriasestratégias podem ser usadas para prover alternativas de palavra para apalavra duvidosamente reconhecida, por exemplo, baseado em alternativaspara um caractere duvidosamente reconhecido informado por uma função deOCR, estatísticas de letra, etc., e combinando a palavra sob investigação comoutras palavras certamente reconhecidas no texto como argumentos depesquisa. De acordo com um exemplo de concretização da presente invenção,tais palavras e/ou combinações alternativas de palavras são investigadasestabelecendo uma medida de confirmação de acordo com a presenteinvenção para todos os resultados de pesquisa informados e então usam estamedida como esboçado acima, e pesquisas repetidas com argumentos depesquisa alternativos até que uma resposta de versão mais provável da palavrasob investigação seja alcançada (tudo zero exceto para uma).

De acordo com outro exemplo de concretização da presenteinvenção, o limiar de confirmação mais alto e o limiar de confirmação maisbaixo podem ser ajustados cooperativamente ou independente um do outropara prover uma afinação dos critérios para categorizar a palavraduvidosamente reconhecida sob investigação.De acordo com um exemplo de concretização da presenteinvenção, uma função de OCR relata uma lista de caracteres duvidosamentereconhecidos e as palavras nas quais os caracteres duvidosamentereconhecidos foram encontrados. Além disso, as alternativas que são possívelpara cada possível versão dos caracteres também são relatadas. Na base destescaracteres alternativos, várias palavras candidatas são criadas como sendo apossível versão correta da palavra, em que cada palavra candidata inclui umdos caracteres alternativos, respectivamente. De acordo com um aspecto dapresente invenção, identificar a palavra candidata correta mais provável podeser alcançado usando cada palavra candidata como um argumento de pesquisaem um utilitário de pesquisa da Internet (usando uma API, por exemplo), e onúmero medido de acertos de cada palavra forma a base para decidir a versãomais provável da palavra. De acordo com outro exemplo de concretização dapresente invenção, a medida de confirmação esboçada acima é usada noprocesso de decisão.

De acordo com outro exemplo de concretização da presenteinvenção, sempre que a medição de acertos provê um empate entrecandidatas, por exemplo um número igual de acertos entre duas candidatas, aspalavras candidatas são combinadas primeiro com a palavra prévia relativa àpalavra incerta sob investigação, e então as palavras combinadas são usadascomo argumento de pesquisa na Internet, secundariamente a pelo menos umapalavra sucessiva relativa da palavra sob investigação na mesma linha detexto é usada de uma maneira semelhante. Adicionalmente, uma combinaçãoda pelo menos uma palavra prévia, da palavra sob investigação e da pelomenos uma palavra sucessiva também é usada como um argumento depesquisa. O número de acertos de cada combinação é usado em um processode confirmação para decidir a versão mais provável das palavras.

De acordo com ainda outro exemplo de concretização dapresente invenção, sempre que as combinações de palavras provêem umaresposta inconclusa, a palavra sob investigação é combinada com uma palavraprévia além da palavra sob investigação. De acordo com o presente exemplode concretização, a gama de palavras que podem ser selecionadas como umacombinação pode ser limitada a um local a uma distância predefinida, porexemplo tal como 5 palavras da palavra sob investigação. De uma maneirasemelhante, as mesmas etapas são executadas com palavras sucessivas, porexemplo, limitado à quinta palavra sucessiva. Porém, qualquer distância dapalavra sob investigação pode ser usada, que é uma característica de projetoda presente invenção. De acordo com outra característica de projeto dapresente invenção, o local de onde a distância é calculada não precisa ser aprópria palavra sob investigação, mas a distância pode ser relacionada a umaárea que inclui a palavra sob investigação, por exemplo. Os acertos medidosresultantes destas pesquisas são então usados como uma base para decidir aversão mais provável da palavra.

De acordo com ainda outro exemplo de concretização dapresente invenção, as palavras precedentes e as palavras sucessivas que sãoselecionadas para serem combinadas com a palavra sob investigação não sóestá baseado em localização relativa para a palavra sob investigação, mastambém no número de caracteres que a palavra inclui. De acordo com umaspecto da presente invenção, palavras longas (por exemplo mais de 8caracteres de comprimento, mas qualquer comprimento pode ser usado e podeser predefinido ou selecionável por usuário) são preferidas como umqualificador para as palavras sob investigação, como descrito acima.

De acordo com ainda outro exemplo de concretização dapresente invenção, a pelo menos uma palavra precedente ou pelo menos umapalavra sucessiva relativa à palavra sob investigação é selecionada na base defreqüência de ocorrência em um idioma específico. Palavras freqüentes sãonormalmente "palavras pequenas" tais como "e", "o", "em, "de", etc., e podemfacilmente ser entendidas como não sendo contribuintes ao processo deverificação. Portanto, é preferível usar palavras precedentes ou sucessivascom baixa freqüência de ocorrência. Em um exemplo de concretização dapresente invenção, o número de ocorrências de uma palavra particular éinformado da função de OCR, e um processo de acordo com a presenteinvenção verifica este número contra um limiar. O número informado deocorrência e o limiar podem ser re-normalizados como conhecido a umapessoa qualificada na técnica para prover uma medida relativa de ocorrência.

Porém, palavras com altas freqüências no documento, mas queprovêem baixos acertos medidos em pesquisas da Internet, são boascandidatas para uso em pesquisa de combinação com alternativas ortográficaspara a palavra sob investigação.

De acordo com ainda outro exemplo de concretização dapresente invenção, nomes próprios podem ser reconhecidos como tais em umabase de combinar vários nomes próprios identificados no texto. De acordocom este exemplo de concretização da presente invenção, todas as palavrascomeçando com uma letra maiúscula são tratadas como um nome própriocontanto que o caractere precedente não seja uma marca de pontuação de fimde oração, tal como ".!?:". Combinando pelo menos dois nomes própriosencontrados no texto, o processo de confirmação pode retornar uma respostacorreta. De acordo com este exemplo de concretização da presente invenção,a função de OCR relata todos os possíveis candidatos de serem nomespróprios para o processo de confirmação ao executar o processo dereconhecimento.

De acordo com ainda outro aspecto da presente invenção,sistemas de OCR são freqüentemente usados em um contexto específico, porexemplo em um sistema de arquivo em um hospital. Diários de paciente sãoatualmente freqüentemente registrados e armazenados eletronicamente, masdiários antigos são freqüentemente baseados em papel e precisam portanto servarridos para serem integrados na versão eletrônica do sistema. De acordocom um exemplo de concretização da presente invenção, sites da Internet quesão usado para a pesquisa no processo de confirmação são selecionáveis. Porexemplo, em um caso com diários de hospital, sites da Internet incluindoinformação médica são a melhor escolha para sites a serem pesquisados.

De acordo com outro aspecto da presente invenção, qualquertipo de conhecimento de contexto relacionado ao documento a ser varrido emum sistema de OCR pode ser usado como qualificadores de palavras.Contexto médico como descrito acima pode ser adicionalmente refinado aespecialidades médicas tais como ortopedia, etc. Outros exemplos podem serhistória familiar, em que um sobrenome especial é predominante. Outrosexemplos podem ser de ciência, agricultura, etc. Comum para todo este"conhecimento" é que é fácil para converter este "conhecimento" emendereços para utilitários de pesquisa incluindo informação pertinenterelacionada ao contexto das páginas de documento a serem reconhecidas.

Ligações a estas páginas são então usadas ao pesquisar a WEB com aspalavras candidatas diferentes de palavras duvidosamente reconhecidas, e osnúmeros de acertos para as alternativas diferentes são então usados como umabase para selecionar a palavra mais provável. De acordo com um exemplo deconcretização da presente invenção, Agente Professional Copérnico é usadocomo o utilitário de pesquisa, em que os critério de pesquisa a serem usadossão selecionados de acordo com conteúdo das páginas a serem reconhecidas.Neste exemplo de utilitário de pesquisa, é possível selecionar sites de acordocom lei, recursos humanos, governo, ciência, etc.

De acordo com ainda outro aspecto da presente invenção,embora uma palavra seja reconhecida duvidosamente devido a caracteresduvidosamente reconhecidos na palavra, partes de tais palavras ainda podemser uma palavra reconhecida válida. Por exemplo, "dona de casa" inclui duaspalavras "casa" e "dona". Se a parte duvidosamente reconhecida da palavraestiver relacionada com a parte da palavra "dona", pesquisar comcombinações incluindo "casa" simplificaria o processo de confirmação. Deacordo com um exemplo de concretização da presente invenção, umdicionário é usado para extrair partes principais identificáveis de palavrasduvidosamente reconhecidas. Isto é alcançado tomando a primeira letra dapalavra como um argumento para o processo de consulta de dicionário, eentão combinando a primeira letra com a próxima letra até que a possívelcombinação mais longa de letras da palavra que provê um resultado doprocesso de consulta de dicionário seja identificada. Esta parte da palavra éentão usada no processo de pesquisa como um qualificador para o resto dapalavra que precisa ser confirmada como a palavra mais provável. Se oresultado do processo de consulta de dicionário estiver inconcluso, o processocontinua de acordo com um dos exemplos de concretizações descrito acima.

De acordo com ainda outro aspecto da presente invenção, asmesmas etapas de um método de acordo com a presente invenção podem serutilizadas em um processo de verificação ortográfica. Algoritmos deverificação de ortográfica na maioria dos casos serão capazes de verificarortografia dessas palavras que fazem parte do dicionário específico de idioma.Algumas classes de palavras como palavras em idiomas estrangeiros e nomespróprios não podem serem esperadas serem achadas no dicionário específicode idioma como há freqüentemente limitações para o tamanho e consistênciado dicionário. Utilizando os aspectos da presente invenção como esboçadoacima, um método incluindo as etapas de acordo com a presente invençãopode resolver palavras grafadas incorretas.

De acordo com ainda outro aspecto da presente invenção,palavras duvidosamente reconhecidas são encontradas freqüentemente emsistemas de reconhecimento de fala igualmente. Sempre que um processo dereconhecimento, sendo um processo de reconhecimento óptico oureconhecimento de fala, etc., relata palavras duvidosamente reconhecidas,possíveis variações da palavra duvidosa é então estabelecida, por exemplo porsugestões de alternativas de caractere para um caractere duvidosamentereconhecido como proposto pelo próprio processo de reconhecimento, ouidentificando palavras reais como parte de uma palavra como descrito acima,pesquisando a WEB pode prover um processo identificando a palavra maisprovável como o reconhecimento correto da palavra.

De acordo com ainda outro aspecto da presente invenção,caracteres duvidosamente reconhecidos podem ser combinações de dois oumais caracteres. Por exemplo, o caractere "m" pode ser uma combinação de"r" e "n" ou outro modo. Quer dizer, um "r" e "n" duvidosamente reconhecidopode ser um "m". Está portanto dentro da extensão da presente invençãoprover soluções com número variável de caracteres duvidosamentereconhecidos.

Figura 1 ilustra um exemplo de uma palavra difícil"Helligolav".

Figura 2 ilustra um exemplo de reconhecimento dúbio dasletras "N" e "H".

Figura 3 ilustra um retrato de um navio encontrado aopesquisar a Internet.

Figura 4 ilustra um exemplo de resultado de pesquisa usandoas frases de pesquisa "Helligolav" e "Nelligolav".

Figura 5 ilustra outro exemplo de palavra reconhecível difícil.

Figura 6 descreve um fluxograma de um exemplo de métodode acordo com a presente invenção.

Figura 7 ilustra um exemplo de saída de um programa de OCRexistente.

De acordo com um aspecto da presente invenção, o processode confirmação é executado em três etapas principais. O processo dereconhecimento, por exemplo um processo de reconhecimento óptico (OCR),primeiro identifica caracteres duvidosamente reconhecidos junto comalternativas de classificação de caractere para este caractere. Figura 7 ilustraum exemplo de saída de um programa de OCR disponível comercial. Umexemplo do processo de OCR poderia ser que o caractere "i" pode ter asalternativas "1" e "j". Secundariamente, a palavra ou frase que o caractere fazparte é usada como entrada a um utilitário de pesquisa de web formando umapesquisa para cada combinação de caractere alternativa dessa palavra ou fraseparticular. Por exemplo, com as alternativas "i","l" e "j", três alternativas sãousadas para a palavra sob investigação. Em terceiro lugar, os resultados deutilitário de pesquisa da web são analisados com respeito a número deocorrências ou a probabilidade para cada combinação de caractere alternativa,e a alternativa mais provável é selecionada. De acordo com um exemplo deconcretização da presente invenção, um programa executa as etapas demétodo anteriores se comunicando com a Internet por uma API para umnavegador de Internet, provendo as alternativas ortográficas como argumentosde pesquisa, e mede os acertos para as alternativas ortográficas. Asalternativas ortográficas como descrito na Figura 7 também podem serrelatadas como um arquivo que pode ser comunicado ao programa de acordocom a presente invenção, como conhecido a uma pessoa qualificada natécnica.

Um exemplo que ilustra a aplicação de uma concretização deacordo com a presente invenção é tomado de uma carta escrita em 1926, e queestá armazenada nos Arquivos Nacionais Noruegueses (Riksarkivet). Oconteúdo da carta está relacionado a embarque de rena pelo Oceano Atlânticocom os navios a vapor Helligolav e Stavangerfjord. Os nomes próprios destesdois navios não podem ser achados em qualquer dicionário de inglêsexistente. Adicionalmente, neste exemplo de processamento de OCR, ocaractere "N" e "H" como ilustrado na Figura 2 é difícil de distinguir. Umaoração da carta de 1926 é ilustrada na Figura 1. Portanto, existem duasalternativas como informado da função de OCR, "Helligolav" e "Nelligolav".Não existe nenhuma preferência estatística para quaisquer das alternativas emuma estatística de freqüência de letra.

Porém, se forem usadas as duas alternativas "Helligolav" e"Nelligolav" como perguntas em um utilitário de pesquisa da web, há 65páginas da web contendo a palavra "Helligolav" e nenhuma contendo apalavra sem sentido "Nelligolav", uma verificação clara que a palavra deveriaser reconhecida como "Helligolav". Um dos resultados de pesquisa é umretrato do navio como ilustrado na Figura 3.

De acordo com outro aspecto da presente invenção,conhecimento sobre o conteúdo em um documento a ser reconhecido pode serusado no processo de confirmação. No exemplo acima, o conhecimento que acarta inclui conteúdo relacionado a navios, animais, etc., pode ser utilizado talque as perguntas sejam submetidas a sites da Internet incluindo informaçãorelacionada a navios, animais, etc. O retorno de um retrato de uma galeria dequadros incluindo ilustrações de navios é então uma identificação forte sobreo significado da palavra. Um modo de identificar um quadro é identificar aextensão de arquivo como sendo por exemplo ".BMP", ".JPG", etc.

Outro exemplo de uso de uma concretização da presenteinvenção inclui uma frase do livro popular "Dark Fire" pelo autor C. J.Sansom grafado em uma fonte de letra preta estranha, como descrito naFigura 4. A qualidade da imagem varrida desta oração é de excelentequalidade, e portanto a maioria do texto pode ser decodificado casandosímbolos semelhantes e executando uma decifração dos símbolos como umacifra de substituição monoalfabética, como bem conhecido a uma pessoaqualificada em técnicas usadas em criptoanálise.

As palavras indecifráveis restantes são palavras como o nomepróprio "Vaughan", desde que o 'V é indecifrável porque não há nenhumaoutra maiúscula 1V no texto e a palavra "Vaughan" não é achada em umdicionário. Por estatística de freqüência de letra como conhecido a umapessoa qualificada na técnica, as possibilidades das alternativas de confusãode 1V' estão limitadas às letras maiúsculas consoantes'BCDFGHJKLMNPQRSTVWX'. Os resultados medidos de perguntas depesquisa da web com estas hipóteses alternativas estão listados na Tabela 1abaixo.

Tabela 1

<table>table see original document page 15</column></row><table>

Embora 'Vaughan' seja mais provável com quase 90% donúmero total de acertos de pergunta, nenhuma decisão conclusiva pode serfeita diretamente baseado nestes resultados. É possível excluir 'Xaughan e'Qaughan' como muito improvável por causa do número muito baixo deacertos, mas ainda há uma chance de 10% de uma classificação errônea se o aalternativa 'Vaughan' for selecionada.

Porém se for usada a frase de pesquisa "Vaughan livery" aoinvés, foram achadas só 4 páginas contendo a frase com um indício 'V', enenhuma das outras combinações de caracteres retorna quaisquer acertos demedição de pergunta. A explicação para estes resultados é que enquanto afamília 'Vaughan' faz parte da antiga aristocracia inglesa e conseqüentementetinha criados em "Vaughan livery", nenhuma das outras famílias Baughan,Caughan, Maughan, etc., tinha criados em sua criadagem como eles nãofazem parte da nobreza. Usando conhecimento sobre o conteúdo do texto aser reconhecido, a palavra mais provável pode ser identificada. Nesteexemplo, a palavra "criadagem" é a primeira palavra sucessiva depois dapalavra sob investigação. Portanto, apenas combinando esta palavra comtodas as outras alternativas possíveis como argumentos de pesquisa, a palavracombinada revela o significado do conteúdo, e conseqüentemente a versãomais provável da palavra sob investigação.

Na Figura 5, é descrito um texto tirado do 'Aenid de Vergil',em que uma das palavras duvidosamente reconhecidas é 'Danae' com aortografia alternativa 'Danac'. Nenhuma palavra é achada no dicionário. Nomesmo texto são reconhecidas certamente as palavras 'Latinus', 'Turnus','Rutulian', 'Argos' e 'Long'.

Tabela 2

<table>table see original document page 16</column></row><table>

Com referência à Tabela 2, a relação de acertos de pesquisa depergunta da web entre 'Danae' e 'Danac' é 96% a favor de 'Danae', algo quenão pode ser visto como conclusivo. Uma possível estratégia é usar pesquisada web combinando as palavras de pesquisa com as outras palavrasreconhecidas certamente. A palavra 'Long' é muito comum e só 0,1 por mil detodos os documentos contendo a palavra 'Long' contêm tanto 'Danae' ou'Danac', e a relação de acerto é 93%. As palavras 'Argos', 'Turnus' e 'Latinus'estão todas retornando relações de acerto combinadas com 'Danae' e 'Danac'que favorece 'Danae' (> 99%), mas a co-ocorrência de palavra relativa ainda épequena. É a palavra menos comum 'Rutulian' que só resulta em 880 acertossozinha, que conduz a um argumento conclusivo. 'Rutulian' nunca estácombinado com 'Danac', mas em 27% dos documentos contendo a palavra'Rutulian', é também achada a palavra 'Danae', indicando uma forte co-ocorrência de palavra.

A generalização deste princípio é que palavras reconhecidascertamente com baixas contagens de freqüência em perguntas de pesquisa daweb que co-ocorrem com um das alternativas de palavra provê resposta maisconfiável que palavras reconhecidas certamente com alta freqüência.Geralmente, um aspecto de acordo com a presente invenção é que é possívelidentificar certamente o que uma palavra não é. Isto é alcançado identificandoalternativas que retornam acertos de medição zero da pesquisa na WEB.Geralmente, o número de acertos medidos retornados pode cair dentro de trêscategorias:

1) O número resultante de acertos medidos está acima de umlimiar superior predefinido para uma das alternativas. Então esta alternativa éselecionada.

2) O número de acertos medidos está abaixo de um limiar

inferior. Então esta alternativa é descartada.

3) O número de acertos medidos cai entre o limiar superior e

inferior. Então a alternativa é investigada adicionalmente.

De acordo com um exemplo de concretização da presenteinvenção, estas três categorias podem ser usadas como uma medida deconfirmação de versão provável de uma palavra sob investigação. De acordocom uma concretização alternativa da presente invenção, o limiar superior e olimiar inferior podem ser variados para cima ou para baixo cooperativamente,ou independentes. Por exemplo, os 100% de acertos totais podem serdivididos em três seções definidas por 10% acima de limiar superior, 10%abaixo de limiar inferior, que implica que 80% dos acertos caem entre oslimiares. De acordo com a concretização alternativa, as gamas podem serdivididas como 5%, 90%, 5%, respectivamente, ou como 10%, 70%, 30%,respectivamente. Qualquer divisão está dentro da extensão da presenteinvenção.

De acordo com um exemplo de concretização da presenteinvenção, um método incluindo etapas para confirmar a versão mais provávelde uma palavra duvidosamente reconhecida inclui as etapas seguintes:

a) Sempre que um processo de reconhecimento relata umcaractere duvidosamente reconhecido, a palavra incluindo este caractere éregistrada tal que as alternativas de versão do caractere sejam inseridas naposição do caractere na palavra, por esse meio criando uma lista incluindoalternativas de palavra. Uma função de OCR como conhecido a uma pessoaqualificada na técnica provê tal informação.

b) As palavras na lista são então usadas como perguntas uma auma em um navegador de Internet como conhecido a uma pessoa qualificadana técnica. Os resultados de pesquisa são medidos e armazenados em umalista, por exemplo.

c) A próxima etapa é então investigar o resultado na lista derelatório. O processo de seleção de confirmação é baseado na observação queessas pesquisas retornando resultados zero provêem uma certa confirmaçãosobre o que a palavra não é. Portanto, o processo adicionalmente sóinvestigará aquelas listagens que provêem um resultado de pesquisa diferentede zero. Porém, a interpretação do número de acertos não está só relacionadaao número maior de acertos na Internet, mas em uma taxa de acerto relativa,relativa aos outros acertos. Se a taxa de acerto relativa estiver acima de umlimiar superior predefinido para uma alternativa específica, esta alternativa éselecionada como a palavra mais provável.

d) Se a taxa de acerto relativa estiver abaixo do limiarsuperior, e a taxa de acerto relativa estiver acima de um limiar de taxa deacerto inferior, investigação adicional é executada. Se a palavra alternativativer uma taxa de acerto relativa fora do limiar superior e inferior, aalternativa é tratada como não sendo certamente a palavra.

e) Adicionalmente, investigação da palavra duvidosamentereconhecida inclui as etapas para verificar se a palavra tem uma letramaiúscula, e portanto é um nome próprio provável. Se o processo dereconhecimento retornar outros nomes próprios prováveis, pelo menos doisnomes próprios são usados como uma pergunta de pesquisa combinada.Novamente, a combinação de palavras retornando zero acertos é excluídacomo sendo candidatas. Os resultados restantes são então testados de acordocom o intervalo de confiança, tanto estando acima de um limiar superior ouabaixo de um limiar inferior, ou como sendo um candidato para investigaçãoadicional quando dentro dos limites de limiar superior e inferior.

f) Se o teste de nome próprio falhar, uma etapa adicional éexecutar uma combinação de pelo menos uma palavra precedendo e pelomenos uma palavra sucessiva achada no texto relativo à palavra sobinvestigação. O mesmo teste de confiança é executado.

g) Se o teste de palavra combinada na etapa f) falhar, entãopelo menos uma palavra precedendo ou pelo menos uma palavra sucessivaincluindo vários caracteres acima de um limiar predefinido é selecionada paraser combinada com a palavra sob investigação. O teste de confiança é entãoexecutado nos resultados informados. Usando só palavras acima de um certocomprimento, palavras pequenas como "a", "o", "e", etc., são evitadas comoargumentos de pesquisa.

h) Se o teste de confiança na etapa g) falhar, então umacontagem de freqüência relativa de pelo menos uma palavra precedendo oupelo menos uma palavras sucessiva é executada, e só aquelas palavras combaixa contagem de freqüência relativa são usadas na etapa g). As mediçõespara as alternativas ortográficas diferentes são então usadas para avaliar apalavra mais provável, ou são usadas para iniciar medições adicionais dealternativas ortográficas, usando palavra única, combinação de múltiplaspalavras, frases e/ou em combinação com curingas como argumentos depesquisa adicionais que são medidos.

i) Se o teste de confiança falhar na etapa h) e/ou g), então osprimeiros caracteres da palavra são usados como entrada a um processo deconsulta de dicionário. Quando a combinação de caracteres que retorna umresultado válido do processo de consulta do dicionário é alcançada, esta parteda palavra sob investigação é uma palavra válida que é combinada com asalternativas para a parte restante da palavra. O teste de confiança é entãoexecutado novamente.

j) Se quaisquer das etapas c) a i) retornar respostas inconclusaspara a palavra sob investigação, o limiar superior e limiar inferior sãomudados em etapas cooperativamente várias vezes predefinidas, e as etapasde confirmação c) a i) são repetidas.

k) Se a etapa j) também falhar, seleções aleatórias de limiaressuperior e inferior são usadas, e as etapas de confirmação c) a i) são repetidas.

l) se o teste de confiança falhar na etapa k), a alternativa tendoa taxa de acerto mais alta da pesquisa resulta na etapa d) é selecionada como apalavra mais provável.

No exemplo de concretização da presente invenção comodescrito acima, o caractere duvidosamente reconhecido pode ser dois ou maiscaracteres que são difíceis de distinguir. Por exemplo, o caractere "m" podeser uma combinação de "r" e "n", por exemplo, mas a função de OCR temproblemas em distinguir cada caractere respectivo. Também é umapossibilidade que a função de OCR interprete uma combinação de "r" e "m"distintamente, mas o caractere é de fato "m". Em todas as concretizações dapresente invenção, qualquer referência a um caractere duvidosamentereconhecido pode incluir um ou mais caracteres duvidosamente reconhecidoscomo ilustrado aqui. Neste contexto, a expressão "alternativa ortográfica"inclui substituição de um caractere duvidosamente reconhecido com uma oumais substituição possível de um caractere com uma combinação de doisoutros caracteres, ou vice-versa.

De acordo com outro aspecto da presente invenção, os valoresde limiar usados para determinar a aceitação de uma alternativa ortográficaestão relacionados a medições de possíveis alternativas ortográficas comodescrito acima. Porém, o número total de acertos que são medidos em algumsenso influenciará o nível atual de limiares que são usados. De acordo comum exemplo de concretização da presente invenção, o nível de aceitação parauma alternativa ortográfica i, denotada como acceptance(i) pode ser expressocomo:

<formula>formula see original document page 21</formula>

em que i denota uma das alternativas ortográficas, ^hitsi é onúmero medido de acertos para alternativa ortográfica i, o denominador é onúmero medido total de acertos para todas as alternativas ortográficas, e γ(#hits) é um nível de limiar que é uma função do número de acertos.

Em outro exemplo de concretização da presente invenção, oacceptance(i) é definido como:

<formula>formula see original document page 21</formula>

em que max(#hitSj)j5ti é o número medido total de acertos paratodas as alternativas ortográficas não incluindo a alternativa ortográfica para i,e os outros parâmetros são como definido acima.

Em um exemplo de concretização da presente invenção, γ éum de dois possíveis valores, um para número muito alto de acertos e outrocaso contrário. Em ainda outro exemplo de concretização da presenteinvenção, há diferentes y's para frases, palavras únicas e palavras múltiplas, sea pesquisa incluir curingas, etc., e sempre que uma alternativa ortográfica formedida como uma única palavra, como parte de múltiplas pesquisas depalavra ou como uma frase, os níveis de limiar diferentes são usadosrespectivamente para verificar a alternativa ortográfica mais provável.

Outra forma do valor de aceitação poderia ser manter a métricana gama [0,1], um exemplo de limiar pode ser então:

<formula>formula see original document page 22</formula>onde os parâmetros são como definido acima. A definição dolimiar também é denotada como rBest(i) usado como argumento em umafunção de mérito definida abaixo.

De acordo com outro aspecto da presente invenção, também épossível medir e fazer comparações com níveis de limiar para rejeitar umaalternativa ortográfica, por exemplo usando:

<formula>formula see original document page 22</formula>em que os parâmetros são como definido acima, enquanto onível de limiar inferior como uma função do número de acertos é denotadocomo k(#hits).

Em um exemplo de concretização da presente invenção, κ éum de dois possíveis valores, um para número muito alto de acertos e outrocaso contrário. Em ainda outro exemplo de concretização da presenteinvenção, há diferentes k's para frases, palavras únicas e palavras múltiplas, sea pesquisa incluir curingas, etc., e sempre que uma alternativa ortográfica formedida como uma palavra única, como parte de múltiplas pesquisas depalavra, ou como uma frase, etc., os níveis de limiar diferentes são usadosrespectivamente para verificar a alternativa ortográfica mais provável.

Como conhecido a uma pessoa qualificada na técnica,programas de OCR também podem informar probabilidades de caractere ouvalores de contagem, denotado valor de CRS5 que pode ser usado paradesignar uma função de mérito que inclui ambos o CRS e #hits das pesquisasde rede. Tais funções de mérito podem ser usadas como valores de aceitaçãoou valores de rejeição, respectivamente. De acordo com um aspecto dapresente invenção, a palavra mais provável é a que maximiza a função demérito, para palavra i:

<formula>formula see original document page 23</formula>

em que a+b=l, CRSword(i) é um valor de contagem de caracteredo processo de OCR relacionado à alternativa ortográfica i, max(#hitSj)j*i é onúmero medido total de acertos para todas as alternativas ortográficas nãoincluindo a alternativa ortográfica para i. Os fatores de ponderação a e bpodem ser usados para regular a importância relativa ou contribuição ao valorde função do valor de CRS e número de acertos, respectivamente.

Uma função de mérito até mesmo mais complicada poderiaser:

<formula>formula see original document page 23</formula>

onde o segundo termo é o CRS mínimo para todos oscaracteres na palavra, o terceiro termo é a soma da diferença de CRS entre oCRS mais alto para cada caractere e o CRS usando word(i). A função fé tantouma função mínima ou máxima, respectivamente, dos níveis de aceitaçãodiferentes como definido acima relacionado à palavra única i, o nível deaceitação para frases incluindo a palavra i, e pesquisas de múltiplas palavrasincluindo a palavra i. Na função a' + b' + c' + d' = 1, e é usada para regular acontribuição de cada elemento, nchar é o número de caracteres em palavras i

De acordo com um aspecto da presente invenção, a expressão"nível de limiar" é para incluir, mas não ser limitada a: um númeroselecionado, um número re-normalizado, um nível de aceitação, um valor decontagem total, ou um nível de rejeição.

O método de acordo com a presente invenção como descritoacima pode ser implementado como rotinas de software em um sistema deOCR existente, como conhecido a uma pessoa qualificado na técnica. O únicopré-requisito é que a função de reconhecimento relate os caracteresduvidosamente reconhecidos e as palavras incluindo estes caracteres.Adicionalmente, a função de reconhecimento deveria relatar as alternativaspara o caractere duvidosamente reconhecido. Adicionalmente, a ordem deetapas de confirmação não tem necessariamente que ser executada comodescrito acima, isto é a etapa i) pode ser executada antes da etapa h), comoentendido por uma pessoa qualificada na técnica.

De acordo com concretizações da presente invenção, sempreque um argumento de pesquisa é combinado com outras palavras, partes depalavras também podem ser usadas. Adicionalmente, a operação de combinaritens para prover um argumento de pesquisa inclui, mas não está limitada ausar operadores de pesquisa bem conhecidos, por exemplo "casa E dona", emque E é o operador como o argumento de pesquisa, e que é bem conhecido auma pessoa qualificada na técnica. Adicionalmente, é para ser entendido quetambém é possível omitir certos tipos de arquivos na pesquisa usandooperadores de pesquisa específicos. Por exemplo, prover um "- PDF" depoisdo argumento de pesquisa omite todos os tipos de arquivos de PDF, quemuito freqüentemente incluem imagens de texto varridas. Emitindo um talcomando, o processo de pesquisa evita investigar documentos incluindo ostipos típicos de erros que o processo de pesquisa é visado a corrigir, por essemeio qualificando os documentos usados como base para a verificação comosendo documentos "limpos".

Exemplos adicionais de concretizações da presente invençãoincluem um processo de confirmação que primeiro identifica o número deacertos que palavras precedentes e palavras sucessivas provêem quandousadas como argumentos de pesquisa em um utilitário de pesquisa. Essaspalavras sucessivas com baixa taxa de acerto diferente de zero (sob umprimeiro limiar), e que incluem um número alto de caracteres (acima de umsegundo) limiar, são usadas em combinação com a palavra sob investigaçãocomo uma alternativa ortográfica para o processo de confirmação.

De acordo com outro exemplo de concretização da presenteinvenção, o limiar de confirmação superior e o limiar de confirmação inferiorpodem ser mudados cooperativamente ou independentes entre si para proveruma afinação dos critérios para categorizar a palavra duvidosamentereconhecida sob investigação. De acordo com este exemplo de concretização,sempre que os limiares são mudados, uma nova pesquisa é iniciada, e oprocesso é repetido até terminação, tanto quando um resultado excede o limiarsuperior, ou como um resultado inconcluso, onde a alternativa ortográficaescolhida provendo o número mais alto de acertos é selecionada como aversão mais provável da palavra sob investigação.

De acordo com ainda outro exemplo de çoncretização dapresente invenção, um usuário pode selecionar uma gama de sites que outilitário de pesquisa vai usar ao executar o processo de confirmação. Deacordo com esta concretização da presente invenção, não só sites da Internetsão selecionáveis, computadores conectados a Intranets, redes de VPR ouredes semelhantes também podem ser selecionadas. De acordo com esteexemplo de concretização, toda a autenticação e associações necessárias sãoexecutadas na base de informação contida na lista selecionada pelo usuário aoreferenciar tais computadores, como conhecido a uma pessoa qualificada natécnica. Também é importante mostrar que as fontes de informação não estãonecessariamente limitadas a computador armazenando informação conectadoa redes, mas o utilitário de pesquisa de acordo com a presente invençãotambém pode pesquisar uma unidade de disco rígido conectada localmente ouremota incluindo informação como esboçado nos princípios da presenteinvenção. Quer dizer, qualquer sistema de arquivo ou método de montar umsistema de arquivo residindo em computadores locais ou computadores emuma rede é visto como estando dentro da extensão da presente invenção, ecomo sendo sites pesquisáveis.

Uma pessoa qualificada na técnica pode entender facilmenteque o mesmo método e sistemas de acordo com a presente invenção podemser utilizados em qualquer tipo de sistema de reconhecimento, por exemplosistemas de reconhecimento de fala. O processo de confirmação pode serbaseado em fonemas, em lugar de caracteres únicos como alternativas deconfusão.

Adicionalmente, também é entendido facilmente por umapessoa qualificada na técnica que etapas semelhantes de acordo com apresente invenção podem ser executadas em um ambiente de verificaçãoortográfica.

Figura 6 ilustra um exemplo de concretização de um sistemade acordo com a presente invenção como um fluxograma de um programa decomputação executando etapas de um método de acordo com a presenteinvenção provendo uma confirmação de palavra mais provável de umapalavra duvidosamente reconhecida em um sistema de OCR com o qual estaconcretização está se comunicando.

Um documento de texto 10 é introduzido a uma máquina dereconhecimento 11 relatando palavras incertas 12 como uma lista decaracteres duvidosamente reconhecidos junto com as palavras, em que estescaracteres foram encontrados. As alternativas ortográficas ou hipóteses sãoconstruídas em 13.

As alternativas ortográficas são então usadas como perguntasem pesquisas na WEB em 17.

Alternativamente, as próprias palavras reconhecidas sãoregistradas em 15. Em 16, um processo adicionando palavras ou frases outema/conteúdo ao documento é executado. Junto com as alternativasortográficas de 18, estas combinações são usadas como argumentos depesquisa em 17.

A análise em 19 incluindo etapas de confirmação de acordocom a presente invenção é executada nos resultados de pesquisa providos de17. O processo de seleção em 21 pode usar a medida de confirmação comodescrito acima para fazer a seleção atual. Porém, qualquer processo de seleçãopode ser implementado de acordo com a presente invenção. Se o processo deseleção for inconcluso, o processo retorna os resultados inconclusos de volta a16, e o processo continua até que um resultado conclusivo tenha sidoalcançado, ou o número de possíveis iterações de estratégias e/ou ajustes delimiar seja exaurido. Então o processo de seleção 21 termina o processoselecionando a alternativa para a palavra sob investigação provendo a medidade confirmação mais alta, e informando esta alternativa de volta à máquina deOCR, que provê um texto completo incluindo todas as palavrasduvidosamente reconhecidas confirmadas, substituídas com a alternativa maisprovável para cada uma.

De acordo com outro aspecto da presente invenção, umcaractere em branco também é visto como sendo um caractere que pode serum caractere duvidosamente reconhecido. Esta é uma situação em que umapalavra é dividida equivocadamente em duas metades, por exemplo. Estádentro da extensão da presente invenção formar alternativas ortográficasincluindo remover um caractere de uma palavra ou frase.

Claims

1. Método para confirmar palavras duvidosamentereconhecidas relatadas por um processo de Reconhecimento Óptico deCaracteres executando reconhecimento de uma imagem de texto, em que orelatório inclui uma lista de pelo menos um caractere duvidosamentereconhecido junto com alternativas prováveis para este pelo menos umcaractere e as palavras em que o caractere foi encontrado, caracterizado pelofato de que inclui as etapas de:a) formar alternativas ortográficas para as palavras incluindo opelo menos um caractere duvidosamente reconhecido substituindo o pelomenos um caractere duvidosamente reconhecido com as alternativasprováveis relatadas para o pelo menos um caractere, um por um e empossíveis combinações em cada palavra encontrada, ou removendo umcaractere para formar uma alternativa ortográfica, respectivamente;b) usar as alternativas ortográficas formadas em a) comoargumentos de pesquisa para um utilitário de pesquisa de Internet e medir onúmero de acertos para resultados de pesquisa para cada alternativaortográfica de a);c) comparar os resultados medidos obtidos em b) com umnível de limiar predefinido superior e um nível de limiar predefinido inferior,e sempre que a medição estiver acima do nível de limiar superior, aalternativa ortográfica formada em a) é usada como a correta, e sempre queuma medição cair abaixo do limiar inferior, o resultado é descartado deinvestigação adicional, e quando a medição cai entre o limiar superior einferior, investigação adicional é executada selecionando uma estratégia depesquisa incluindo alternativas ortográficas de a), e então repetir a etapa b) e c).

2. Método de acordo com a reivindicação 1, caracterizado pelofato de que a etapa a) inclui substituir o pelo menos um caractereduvidosamente reconhecido com uma combinação de pelo menos doiscaracteres ao formar as alternativas ortográficas.

3. Método de acordo com a reivindicação 1, caracterizado pelofato de que a etapa a) inclui substituir dois ou mais do pelo menos umcaractere duvidosamente reconhecido com um único caractere ao formar asalternativas ortográficas.

4. Método de acordo com a reivindicação 1, caracterizado pelofato de que a estratégia de pesquisa inclui identificar se a alternativaortográfica sob investigação é um nome próprio, e se sim identificar noprocesso de OCR outras palavras reconhecidas que são nomes próprios, entãoprover como uma alternativa ortográfica uma combinação da palavra sobinvestigação junto com pelo menos um outro nome próprio corretamentereconhecido.

5. Método de acordo com a reivindicação 1, caracterizado pelofato de que a estratégia de pesquisa inclui usar pelo menos uma palavraprecedente relativa à palavra sob investigação em combinação com a palavrasob investigação como a alternativa ortográfica.

6. Método de acordo com a reivindicação 1, caracterizado pelofato de que a estratégia de pesquisa inclui usar pelo menos uma palavrasucessiva relativa à palavra sob investigação em combinação com a palavrasob investigação como a alternativa ortográfica.

7. Método de acordo com a reivindicação 1, caracterizado pelofato de que a estratégia de pesquisa inclui usar pelo menos uma palavraprecedente adicionalmente longe relativa à palavra sob investigação emcombinação com a palavra sob investigação como a alternativa ortográfica.

8. Método de acordo com a reivindicação 1, caracterizado pelofato de que a estratégia de pesquisa inclui usar pelo menos uma palavrasucessiva adicionalmente longe relativa à palavra sob investigação emcombinação com a palavra sob investigação como a alternativa ortográfica.

9. Método de acordo com a reivindicação 1, caracterizado pelofato de que a estratégia de pesquisa inclui usar pelo menos uma palavraprecedente adicionalmente longe relativa à palavra sob investigação queinclui vários caracteres acima de um limiar predefinido em combinação com apalavra sob investigação como a alternativa ortográfica.

10. Método de acordo com a reivindicação 1, caracterizadopelo fato de que a estratégia de pesquisa inclui usar pelo menos uma palavrasucessiva adicionalmente longe relativa à palavra sob investigação que incluivários caracteres acima de um limiar predefinido em combinação com apalavra sob investigação como a alternativa ortográfica.

11. Método de acordo com a reivindicação 1, caracterizadopelo fato de que a estratégia de pesquisa inclui as etapas de:i) obter uma contagem de ocorrência de palavras encontradasna imagem do texto no processo de OCR;ii) usar a pelo menos uma palavra precedente adicionalmentelonge relativa à palavra sob investigação que tem um número baixo deocorrências abaixo de um limiar predefinido em combinação com a palavrasob investigação como a alternativa ortográfica.

12. Método de acordo com a reivindicação 11, caracterizadopelo fato de que a estratégia de pesquisa adicionalmente inclui na etapa ii):usar pelo menos uma palavra sucessiva adicionalmente longerelativa à palavra sob investigação que tem um número baixo de ocorrênciasabaixo de um limiar predefinido em combinação com a palavra sobinvestigação como a alternativa ortográfica.

13. Método de acordo com a reivindicação 1, caracterizadopelo fato de que a estratégia de pesquisa inclui as etapas de:iii) obter uma contagem de ocorrência de palavras encontradasna imagem do texto no processo de OCR;iv) usar a pelo menos palavra precedente adicionalmente longerelativa à palavra sob investigação que tem um número alto de ocorrênciasacima de um primeiro limiar predefinido e que incluem um número alto decaracteres na palavra acima de um segundo limiar em combinação com apalavra sob investigação como a alternativa ortográfica.

14. Método de acordo com a reivindicação 13, caracterizadopelo fato de que a estratégia de pesquisa adicionalmente inclui na etapa ii):usar a pelo menos palavra sucessiva adicionalmente longerelativa à palavra sob investigação que tem um número alto de ocorrênciasacima de um primeiro limiar predefinido e que incluem um número alto decaracteres na palavra acima de um segundo limiar em combinação com apalavra sob investigação como a alternativa ortográfica.

15. Método de acordo com a reivindicação 1, caracterizadopelo fato de que a estratégia de pesquisa inclui as etapas de:v) selecionar palavras precedentes adicionalmente longerelativas à palavra sob investigação uma a uma e listar essas palavrasprecedentes que incluem vários caracteres acima de um limiar predefinido;vi) usar as palavras selecionadas listadas em v) comoargumentos de pesquisa em um utilitário de pesquisa de Internet e identificara palavra que provê um número mais baixo de acertos diferentes de zero, eusar essa palavra em combinação com a palavra sob investigação como aalternativa ortográfica.

16. Método de acordo com a reivindicação 1, caracterizadopelo fato de que a estratégia de pesquisa inclui as etapas de:vii) selecionar palavras sucessivas adicionalmente longerelativas à palavra sob investigação uma a uma e listar essas palavrassucessivas que incluem vários caracteres acima de um limiar predefinido;viii) usar as palavras selecionadas listadas em vii) como umargumento de pesquisa em um utilitário de pesquisa de Internet e identificar apalavra que provê um número mais baixo de acertos diferentes de zero, e usaressa palavra em combinação com a palavra sob investigação como aalternativa ortográfica.

17. Método de acordo com a reivindicação 1, caracterizadopelo fato de que a comparação com o limiar superior e a comparação com olimiar inferior é baseada em uma re-normalização dos limiares e número totalrelatado de acertos.

18. Método de acordo com a reivindicação 1, caracterizadopelo fato de que o limiar superior e inferior é mudado incrementalmente paracima e para baixo cooperativamente, e sempre que uma mudança de limiaresé executada, iniciar uma nova pesquisa e processo de confirmação.

19. Método de acordo com a reivindicação 1, caracterizadopelo fato de que o limiar superior e inferior é mudado incrementalmente paracima e para baixo independentemente, e sempre que uma mudança de limiaresé executada, iniciar uma nova pesquisa e processo de confirmação.

20. Método de acordo com a reivindicação 1, caracterizadopelo fato de sempre que uma alternativa ortográfica é inconclusa, o resultadoortográfico provendo o número mais alto de acertos re-normalizados relativosé selecionado como a alternativa ortográfica mais provável.

21. Método de acordo com a reivindicação 1, caracterizadopelo fato de que a estratégia de pesquisa inclui as etapas de:selecionar caracteres de frente um por um da palavra sobinvestigação;combinar estes caracteres em um número crescente decaracteres de frente;usar cada um dos exemplos de número crescente de caracterescomo um argumento para uma consulta de dicionário; ese o dicionário retornar uma palavra verdadeira da consulta dedicionário, usar esta palavra em combinação com a palavra sob investigaçãocomo a alternativa ortográfica.

22. Método de acordo com quaisquer das reivindicaçõesprecedentes, caracterizado pelo fato de que o utilitário de pesquisa, como umaalternativa ou além de executar pesquisas na Internet, faz pesquisas em outrasfontes de informação não acessíveis pela Internet, mas que são acessíveis poruma Intranet, Rede Privada Virtual, ou redes semelhantes, ou pesquisandodiretamente uma unidade de disco rígido conectada incluindo informação.

23. Método de acordo com a reivindicação 22, caracterizadopelo fato de que um usuário pode selecionar de uma lista sites de informaçãoa serem pesquisados durante o processo de confirmação.

24. Método de acordo com a reivindicação 1, caracterizadopelo fato de que o limiar superior é definido como: <formula>formula see original document page 33</formula> em que i denota uma das alternativas ortográficas, #hitSi é onúmero medido de acertos para alternativa ortográfica i, o denominador é onúmero medido total de acertos para todas as alternativas ortográficas, ey(#hits) é um nível de limiar que é uma função do número de acertos.

25. Método de acordo com a reivindicação 1, caracterizadopelo fato de que o limiar superior é definido como: <formula>formula see original document page 33</formula> em que i denota uma das alternativas ortográficas, #hitSi é onúmero medido de acertos para alternativo ortográfica i, max(#hitsj)j^1 é onúmero medido total de acertos para todas as alternativas ortográficas nãoincluindo a alternativa ortográfica para i, e y(#hits) é um nível de limiar que éuma função do número de acertos.

26. Método de acordo com a reivindicação 1, caracterizadopelo fato de que o limiar inferior é:<formula>formula see original document page 34</formula>em que #hitSj é o número medido de acertos para alternativaortográfica i, max(#hitSj)^i é o número medido total de acertos para todas asalternativas ortográficas não incluindo a alternativa ortográfica para i, eK(#hits) é um nível de limiar que é uma função do número de acertos.

27. Método de acordo com a reivindicação 1, caracterizadopelo fato de que uma função de mérito é usada para definir uma medição parao número de acertos como:<formula>formula see original document page 34</formula>em que a + b = 1, CRSword(i) é um valor de contagem decaractere do processo de OCR relacionado à alternativa ortográfica i,max(#hitSj)j*i é o número medido total de acertos para todas as alternativasortográficas não incluindo a alternativa ortográfica para i.

28. Método de acordo com a reivindicação 1, caracterizadopelo fato de que uma função de mérito é usada para definir uma medição parao número de acertos como:<formula>formula see original document page 34</formula>em que a' + b' + c' + d' = 1, CRSword(i) é um valor de contagemde caractere do processo de OCR relacionado à alternativa ortográfica i, osegundo termo é o mínimo CRS para todos os caractere na palavra, o terceirotermo é a soma da diferença de CRS entre o CRS mais alto para cadacaractere e o CRS usando palavra (i),/é uma função mínima ou máxima dosvalores de limiar superior ou limiar inferior como definido de acordo com areivindicação 25, e nchar é o número de caracteres na palavra i

29. Método de acordo com quaisquer das reivindicações 1-28,caracterizado pelo fato de que o sistema de OCR é um sistema dereconhecimento de fala, e o pelo menos um caractere duvidosamentereconhecido é uma interpretação duvidosa de um fonema.

30. Sistema para confirmar palavras duvidosamentereconhecidas relatadas de uma função de Reconhecimento Óptico deCaracteres (OCR) em um sistema de computador, em que o relatório incluiuma lista para um caractere duvidosamente reconhecido junto comalternativas prováveis para este caractere e as palavras encontradas em umtexto incluindo este caractere em um texto sob investigação na função deOCR, caracterizado pelo fato de que inclui:a) um componente de sistema formando alternativasortográficas para as palavras incluindo as palavras duvidosamentereconhecidas substituindo o pelo menos um caractere duvidosamentereconhecido com as alternativas prováveis relatadas para o pelo menos umcaractere um por um em cada palavra encontrada;b) um componente de sistema usando as alternativasortográficas formadas em a) como argumentos de pesquisa para um utilitáriode pesquisa de Internet e medindo o número de acertos para resultados depesquisa para cada alternativa ortográfica;c) um componente de sistema comparando os resultadosmedidos obtidos em b) com um nível de limiar predefinido superior e umnível de limiar predefinido inferior, e sempre que a medição estiver acima donível de limiar superior, a alternativa ortográfica formada em a) é usada comoa correta, e sempre que uma medição cair abaixo do limiar inferior, oresultado é descartado de investigação adicional, e quando a medição cai entreo limiar superior e inferior, investigação adicional é executada selecionandouma estratégia de pesquisa com alternativas ortográficas de a), e entãoexecutando componente de sistema b) e c).

31. Sistema de acordo com a reivindicação 1, caracterizadopelo fato de que o componente de sistema a) inclui substituir pelo menos umcaractere duvidosamente reconhecido com uma combinação de pelo menosdois caracteres ao formar as alternativas ortográficas.

32. Sistema de acordo com a reivindicação 1, caracterizadopelo fato de que o componente de sistema a) inclui substituir dois ou mais dopelo menos um caractere duvidosamente reconhecido com um único caractereao formar as alternativas ortográficas.

33. Sistema de acordo com a reivindicação 28, caracterizadopelo fato de que o componente de sistema b) inclui uma unidade identificandose a alternativa ortográfica sob investigação é um nome próprio, e se simsubmete uma pergunta ao processo de OCR identificando outras palavrasreconhecidas que são nomes próprios, e então combinam pelo menos um dosoutros nomes próprios reconhecidos corretamente com o nome próprio sobinvestigação como a alternativa ortográfica.

34. Sistema de acordo com a reivindicação 30, caracterizadopelo fato de que o componente de sistema de pesquisa b) inclui uma unidadeusando pelo menos uma palavra precedente relativa à palavra sobinvestigação em combinação com a palavra sob investigação como aalternativa ortográfica.

35. Sistema de acordo com a reivindicação 30, caracterizadopelo fato de que o componente de sistema b) inclui uma unidade usando pelomenos uma palavra sucessiva relativa à palavra sob investigação emcombinação com a palavra sob investigação como a alternativa ortográfica.

36. Sistema de acordo com a reivindicação 30, caracterizadopelo fato de que o componente de sistema b) inclui uma unidade usando pelomenos uma palavra precedente adicionalmente longe relativa à palavra sobinvestigação em combinação com a palavra sob investigação como aalternativa ortográfica.

37. Sistema de acordo com a reivindicação 30, caracterizadopelo fato de que o componente de sistema b) inclui uma unidade usando pelomenos uma palavra sucessiva adicionalmente longe relativa à palavra sobinvestigação em combinação com a palavra sob investigação como aalternativa ortográfica.

38. Sistema de acordo com a reivindicação 30, caracterizadopelo fato de que o componente de sistema b) inclui uma unidade usando pelomenos uma palavra precedente adicionalmente longe relativa à palavra sobinvestigação que inclui vários caracteres acima de um limiar predefinido emcombinação com a palavra sob investigação como a alternativa ortográfica.

39. Sistema de acordo com a reivindicação 30, caracterizadopelo fato de que o componente de sistema b) inclui uma unidade usando pelomenos uma palavra sucessiva adicionalmente longe relativa à palavra sobinvestigação que inclui vários caracteres acima de um limiar predefinido emcombinação com a palavra sob investigação como a alternativa ortográfica.

40. Sistema de acordo com a reivindicação 30, caracterizadopelo fato de que o componente de sistema de pesquisa b) inclui uma unidade que:ix) obtém uma contagem de ocorrência de palavrasencontradas na imagem do texto do processo de OCR, e armazena os númerosde ocorrência;x) seleciona pelo menos uma palavra precedenteadicionalmente longe relativa à palavra sob investigação que tem um baixonúmero de ocorrência de v) sob um limiar predefinido e combina esta palavracom a palavra sob investigação como a alternativa ortográfica.

41. Método de acordo com a reivindicação 28, caracterizadopelo fato de que o componente de sistema b) adicionalmente inclui umaunidade que:seleciona pelo menos uma palavra sucessiva adicionalmentelonge relativa à palavra sob investigação que tem um baixo número deocorrência de ix) sob um limiar predefinido e combina esta palavra com apalavra sob investigação como a alternativa ortográfica.

42. Sistema de acordo com a reivindicação 30, caracterizadopelo fato de que o componente de sistema de pesquisa b) inclui uma unidadeque:xi) obtém uma contagem de ocorrência de palavrasencontradas na imagem do texto do processo de OCR, e armazena os númerosde ocorrência;xii) seleciona pelo menos uma palavra precedenteadicionalmente longe relativa à palavra sob investigação que tem um altonúmero de ocorrências acima de um primeiro limiar predefinido e que incluium alto número de caracteres na palavra acima de um segundo limiar emcombinação com a palavra sob investigação como a alternativa ortográfica.

43. Sistema de acordo com a reivindicação 42, caracterizadopelo fato de que o componente de sistema de pesquisa b) adicionalmenteinclui uma unidade que:seleciona pelo menos uma palavra sucessiva adicionalmentelonge relativa à palavra sob investigação que tem um alto número deocorrências acima de um primeiro limiar predefinido e que inclui um altonúmero de caracteres na palavra acima de um segundo limiar em combinaçãocom a palavra sob investigação como a alternativa ortográfica.

44. Sistema de acordo com a reivindicação 30, caracterizadopelo fato de que o componente de sistema de pesquisa b) inclui uma unidadeque:xiii) seleciona palavras precedentes adicionalmente longerelativas à palavra sob investigação uma a uma e armazena essas palavrasprecedentes que incluem vários caracteres acima de um limiar predefinido,xiv) usa as palavras armazenadas em xiii) como argumentos depesquisa em um utilitário de pesquisa de Internet, identifica a palavra queprovê um número mais baixo de acertos diferentes de zero, e usa essa palavraem combinação com a palavra sob investigação como a alternativaortográfica.

45. Sistema de acordo com a reivindicação 28, caracterizadopelo fato de que o componente de sistema de pesquisa b) inclui uma unidade que:xv) seleciona palavras sucessivas adicionalmente longerelativas à palavra sob investigação uma a uma e armazena essas palavrasprecedentes que incluem vários caracteres acima de um limiar predefinido;xvi) usa as palavras armazenadas de xv) como argumentos depesquisa em um utilitário de pesquisa de Internet, identifica a palavra queprovê um número mais baixo de acertos diferentes de zero, e usa essa palavraem combinação com a palavra sob investigação como a alternativaortográfica.

46. Sistema de acordo com a reivindicação 30, caracterizadopelo fato de que a comparação com o limiar superior e a comparação com olimiar inferior é baseada em uma re-normalização dos limiares e númerostotais medidos de acertos.

47. Sistema de acordo com a reivindicação 30, caracterizadopelo fato de que o limiar superior e inferior é mudado incrementalmente paracima e para baixo cooperativãmente.

48. Sistema de acordo com a reivindicação 30, caracterizadopelo fato de que o limiar superior e inferior é mudado incrementalmente paracima e para baixo independentemente.

49. Sistema de acordo com a reivindicação 30, caracterizadopelo fato de sempre que uma alternativa ortográfica está inconclusa, oresultado ortográfico provendo o número mais alto de acertos relativos (re-normalizados) é selecionado como a alternativa ortográfica mais provável.

50. Sistema de acordo com a reivindicação 30, caracterizadopelo fato de que o utilitário de pesquisa, como uma alternativa ou além deexecutar pesquisas na Internet, faz pesquisas em outras fontes de informaçãonão acessíveis pela Internet, mas que são acessíveis por uma Intranet, VPR,ou redes semelhantes, ou diretamente pesquisando uma unidade de discorígido conectada incluindo informação.

51. Sistema de acordo com a reivindicação 50, caracterizadopelo fato de que um usuário pode selecionar de uma lista uma gama de sitesde informação a serem pesquisados durante o processo de confirmação peloutilitário de pesquisa.

52. Sistema de acordo com a reivindicação 30, caracterizadopelo fato de que o limiar superior é definido como:<formula>formula see original document page 40</formula>em que i denota um das alternativas ortográficas, #hitSi é onúmero medido de acertos para alternativa ortográfica i, o denominador é onúmero medido total de acertos para todas as alternativas ortográfica, ey(#hits) é um nível de limiar que é uma função do número de acertos.

53. Sistema de acordo com a reivindicação 30, caracterizadopelo fato de que o limiar superior é definido como:<formula>formula see original document page 40</formula>em que i denota uma das alternativas ortográficas, #hits; é onúmero medido de acertos para alternativa ortográfica i, max(#hitSj)j*j é onúmero medido total de acertos para todas as alternativas ortográficas nãoincluindo a alternativa ortográfica para i, e y(#hits) é um nível de limiar que éuma função do número de acertos.

54. Sistema de acordo com a reivindicação 30, caracterizadopelo fato de que o limiar inferior é definido como:<formula>formula see original document page 40</formula>em que #hitSi é o número medido de acertos para alternativoortográfica i, max(#hitSj)j*i é o número medido total de acertos para todas asalternativas ortográficas não incluindo a alternativa ortográfica para i, eK(#hits) é um nível de limiar que é uma função do número de acertos.

55. Sistema de acordo com a reivindicação 30, caracterizadopelo fato de que uma função de mérito é usada para definir uma medição parao número de acertos como:<formula>formula see original document page 41</formula>é em que a + b = 1, CRSword(i) é um valor de contagem decaractere do processo de OCR relacionado à alternativa ortográfica i,max(#hitSj)j^i é o número medido total de acertos para todas as alternativasortográficas não incluindo a alternativa ortográfica para i.

56. Sistema de acordo com a reivindicação 30, caracterizadopelo fato de que uma função de mérito é usada para definir uma medição parao número de acertos como:<formula>formula see original document page 41</formula>em que a' + b' + c'+ d' = 1, CRSword (i) é um valor de contagemde caractere do processo de OCR relacionado à alternativa ortográfica i, osegundo termo é o CRS mínimo para todos os caracteres na palavra, o terceirotermo é a soma da diferença de CRS entre o CRS mais alto para cadacaractere e o CRS usando palavra (i),/é uma função mínima ou máxima dosvalores de limiar superior ou limiar inferior como definido de acordo com areivindicação 54, e nchar é o número de caracteres na palavra i.

57. Sistema de acordo com reivindicações 30-56, caracterizadopelo fato de que o sistema de OCR é um sistema de reconhecimento de fala, eo pelo menos um caractere duvidosamente reconhecido é uma interpretaçãoduvidosa de um fonema.